بازشناسی احساس از روی گفتار بر پایه ی بهره گیری از شبکه های عصبی پیچشی سه بعدی و چند مقیاسه کردن ابعاد ورودی

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 389

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ECMM04_002

تاریخ نمایه سازی: 1 اردیبهشت 1400

چکیده مقاله:

هدف از سیستم های بازشناسی احساس از روی گفتار ایجاد ارتباط عاطفی بین انسان و ماشین است. چرا که بازشناسی احساس و اهداف انسان از روی گفتار، به بهبود تعاملات بین انسان و ماشین کمک می کند. بازشناسی احساس از روی گفتار برای محققان در دهه گذشته یک مساله چالش برانگیز بوده است. اما با پیشرفت در حوزه هوش مصنوعی این چالش ها کم رنگ تر شدند. در این پژوهش، با استفاده از روش های یادگیری عمیق در جهت بهتر کردن کارایی این سیستم ها گام نهادیم. کار انجام شده از چندین مرحله تشکیل شده است. در مرحله اول از شبکه های عصبی پیچشی سه بعدی برای یادگیری ویژگی های طیفی زمانی گفتار استفاده شده است. در مرحله دوم برای قدرتمند کردن مدل پیشنهادی از معماری چند مقیاسه برای سیستم های بازشناسی احساس از روی گفتار است را مدل MSID 3DCNN نامیدیم. پژوهش انجام شده و مدل نهایی را روی ترکیب دو پایگاه داده گفتار معمولی و گفتار آوازی از پایگاه داده راودسی که یک پایگاه داده چند حالته است؛ انجام دادیم. متایجی که با استفاده از مدل پیشنهادی گرفتیم؛ نسبت به مدل های مرسوم، نتایج امیدوار کننده ای است. ما در این پژوهش برای شش کلاس احساسی به تفکیک جنسیت، به دفت 78/8 درصد رسیدیم.

کلیدواژه ها:

بازشناسی احساسی از روی گفتار ، شبکه های عصبی پیچشی سه بعدی ، مدل چند مقایسه روی ابعاد ورودی ، ویژگی های مدل طیفی زمانی ، پایگاه داده راودیس

نویسندگان

وحید احمدیان

دانشگاه صدا و سیمای جمهوری اسلامی ایران

معصومه شفیعیان

دانشگاه صدا و سیمای جمهوری اسلامی ایران

مجید بهداد

دانشگاه صدا و سیمای جمهوری اسلامی ایران