بازشناسی احساس از روی گفتار با استفاده از ترکیب رویکرد هرمی جدید شبکه های عصبی پیچشی سه بعدی و شبکه کپسول زمانی

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 320

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ISCEE20_044

تاریخ نمایه سازی: 6 مهر 1400

چکیده مقاله:

گفتار غالبترین منبع ارتباطی بین انسانهاست و راهی کارآمد برای تعامل انسان و ماشین است. هدف از سیستم-های بازشناسی احساس از روی گفتار ایجاد ارتباط عاطفی بین انسان و ماشین است. چراکه بازشناسی احساس از رویگفتار و اهداف انسان از گفتار مکالمه شده به بهبود تعاملات بین انسان و ماشین کمک میکند. در این پژوهش از روش-های یادگیری عمیق و ترکیب مناسب آنها در جهت بهتر کردن کارایی این سیستم ها استفاده کردیم.پژوهش انجام شده در قسمت دسته بند، از دو بخش اساسی تشکیل شده است. در بخش اول، ویژگی های استخراجشده ی طیفی زمانی لگاریتم مل از ساختار هرمی جدید شبکه های عصبی پیچشی سه بعدی عبور داده می شود. در بخشدوم نقشه ویژگی بدست آمده از بخش اول را وارد شبکه کپسول زمانی می کنیم. در نهایت مدل پیشنهادی، که یک مدلقدرتمند برای سیستم های بازشناسی احساس از روی گفتار است را (NPC۳DCNN+TC) نامیدیم.پژوهش انجام شده و مدل نهایی روی ترکیب دو پایگاه داده معمولی و آوازی از پایگاه داده راودیس انجام شده است.ما در این پژوهش برای شش کلاسی احساسی به تفکیک جنسیت به دقت ۸۱.۷۷ درصد رسیدیم.

کلیدواژه ها:

بازشناسی احساس از روی گفتار ، رویکرد هرمی شبکه های عصبی پیچی سه بعدی ، شبکه کپسول زمانی ، یادگیری عمیق

نویسندگان

وحید احمدیان

کارشناسی ارشد، دانشگاه صدا و سیمای جمهوری اسلامی ایران

معصومه شفیعیان

استادیار، دانشگاه صدا و سیمای جمهوری اسلامی ایران

مجید بهداد

مربی، دانشگاه صدا و سیمای جمهوری اسلامی ایران