تشخیص احساسات انسانی با معماری چندوجهی مبتنی بر CNN و Bi-GRU با مکانیزم توجه تطبیقی
محل انتشار: کنفرانس بین المللی هوش مصنوعی و فناوری های مرتبط
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 25
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICIRT01_043
تاریخ نمایه سازی: 9 آذر 1404
چکیده مقاله:
تشخیص احساسات انسانی با معماری چندوجهی مبتنی بر CNN و Bi-GRU با مکانیزم توجه تطبیقی. درک و تجزیه و تحلیل احساسات انسانی برای افزایش تعاملات انسان-ماشین بسیار حیاتی است. این مطالعه یک سیستم هوشمند چندوجهی برای تشخیص احساسات با ترکیب داده های صوتی و تصویری در یک چارچوب یادگیری عمیق پیشنهاد می دهد. مدل دو مسیر پردازش موازی دارد: صوت و تصویر. در مسیر صوت، سیگنالهای گفتار از پایگاه داده IEMOCAP به نمایشهای طیفی با استفاده از ضرایب MFCC تبدیل شده و توسط یک CNN یک بعدی پردازش می شوند. خروجی CNN به شبکه Bi-GRU با یک مکانیزم توجه منتقل می شود تا بخشهای احساسی کلیدی را برجسته کند. در مسیر تصویر، فریمهای ویدیو از طریق تشخیص چهره با استفاده از MTCNN عبور می کنند و از مدل VGG۱۶ برای استخراج ویژگی های بصری سطح بالا عبور می کنند که نیز توسط لایه های Bi-GRU و توجه پردازش می شوند. خروجی های هر دو مسیر ادغام می شوند و به یک لایه کاملا متصل وارد می شوند، که توسط یک طبقه بند Softmax هشت کلاس احساسی را پیش بینی می کند. ارزیابی شده با استفاده از اعتبارسنجی پنج گانه، مدل به دقت ۹۱.۳٪ دست یافت. تجزیه و تحلیل F۱-Score کلاس به کلاس نشان داد تشخیص بهبود یافته احساسات همپوشانی مانند اضطراب و ناامیدی. این نتایج نشان می دهند کارایی ترکیبی CNN-BiGRU با توجه در تشخیص چندوجهی احساسات.
کلیدواژه ها:
نویسندگان
سینا صمدی قره ورن
دانشکده مهندسی برق و کامپیوتر، دانشگاه تبریز، تبریز، ایران