بازشناسی احساسات از روی گفتار با استفاده از ترکیب شبکه های عصبی ترنسفورمر و کانولوشنی

سال انتشار: 1401
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 409

فایل این مقاله در 21 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_JIPET-13-52_006

تاریخ نمایه سازی: 4 دی 1400

چکیده مقاله:

بازشناسی احساسات از روی گفتار با توجه به کاربردهای متنوع آن امروزه مورد توجه بسیاری از محققان قرار گرفته است. با پیشرفت روش های آموزش شبکه های عصبی عمیق وگسترش استفاده از آن در کاربردهای مختلف، در این مقاله کاربرد شبکه های کانولوشنی و ترنسفورمر در یک ترکیب جدید در بازشناسی احساسات گفتاری مورد بررسی قرار گرفته که از لحاظ پیاده سازی نسبت به روش های موجود ساده تر بوده و عملکرد مطلوبی نیز دارد. برای این منظور شبکه های عصبی کانولوشنی و ترنسفورمر پایه معرفی شده و سپس مبتنی بر آنها یک مدل جدید حاصل از ترکیب شبکه های کانولوشنی و ترنسفورمر ارایه شده که در آن خروجی مدل کانولوشنی پایه ورودی مدل ترنسفورمر پایه است. نتایج حاصل نشان می دهد که استفاده از شبکه های عصبی ترنسفورمر در بازشناسی بعضی از حالت های احساسی عملکرد بهتری نسبت به روش کانولوشنی دارد. همچنین در این مقاله نشان داده شده که استفاده از شبکه های عصبی ساده به­صورت ترکیبی عملکرد بهتری در بازشناسی احساسات از روی گفتار می تواند داشته باشد. در این رابطه بازشناسی احساسات گفتاری با استفاده از ترکیب شبکه های عصبی کانولوشنی و ترنسفورمر با نام کانولوشنال-ترنسفورمر (CTF) برای دادگان راودس دقتی برابر ۹۴/۸۰ درصد به­دست آورد؛ در حالی­که یک شبکه عصبی کانولوشنی ساده دقتی در حدود ۷/۷۲ درصد به­دست آورد. همچنین ترکیب شبکه های عصبی ساده علاوه بر اینکه می تواند دقت بازشناسی را افزایش دهد، می تواند زمان آموزش و نیاز به نمونه های آموزشی برچسب دار را نیز کاهش دهد.

کلیدواژه ها:

نویسندگان

یوسف پورابراهیم

دانشکده مهندسی برق و کامپیوتر- واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران

فربد رزازی

دانشکده مهندسی برق و کامپیوتر- واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران

حسین صامتی

دانشکده مهندسی کامپیوتر- دانشگاه صنعتی شریف، تهران، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • K. Han, D. Yu, I. Tashev, "Speech emotion recognition using ...
  • A. M. Badshah, J. Ahmad, N. Rahim, S.W. Baik, "Speech ...
  • S. Mittal, S. Agarwal, M.J. Nigam, "Real time multiple face ...
  • H.S. Bae, H.J. Lee, S.G. Lee, "Voice recognition based on ...
  • K. He, X. Zhang, S. Ren, J. Sun, "Deep residual ...
  • K.Y. Huang, C.H. Wu, Q.B. Hong, M.H. Su, Y.H. Chen, ...
  • W. Lim, D. Jang, T. Lee, "Speech emotion recognition using ...
  • G. Trigeorgis, F. Ringeval, R. Brueckner, E. Marchi, M.A. Nicolaou, ...
  • Y. Pourebrahim, F. Razzazi, H. Sameti, "Semi-supervised parallel shared encoders ...
  • N. Yazdanian, H. Mahmodian, "Emotion recognition of speech signals based ...
  • M. Kadkhodaei Elyaderani, S.H. Mahmoodian, G. Sheikhi, "Wavelet packet entropy ...
  • D. Issa, M.F. Demirci, A. Yazici, "Speech emotion recognition with ...
  • J. Zhao, X. Mao, L. Chen, "Speech emotion recognition using ...
  • S. Kwon, "A CNN-assisted enhanced audio signal processing for speech ...
  • M. Farooq, F. Hussain, N.K. Baloch, F.R. Raja, H. Yu, ...
  • M. Sajjad, S. Kwon, "Clustering-based speech emotion recognition by incorporating ...
  • M.S. Fahad, A. Ranjan, J. Yadav, A. Deepak, "A survey ...
  • A. Vaswani, N, Shazeer, N. Parmar, J. Uszkoreit, L. Jones, ...
  • N. Parmar, A. Vaswani, J. Uszkoreit, L. Kaiser, N. Shazeer, ...
  • D. Povey, H. Hadian, P. Ghahremani, K. Li, S. Khudanpur, ...
  • P.J. Liu, M. Saleh, E. Pot, B. Goodrich, R. Sepassi, ...
  • C. Huang, A. Vaswani, J. Uszkoreit, N. Shazeer, C. Hawthorne, ...
  • P. Shegokar, P. Sircar, "Continuous wavelet transform based speech emotion ...
  • S.R. Livingstone, F.A. Russo, "The ryerson audio-visual database of emotional ...
  • B. Zhang, E.M. Provost, G. Essl, "Cross-corpus acoustic emotion recognition ...
  • Y. Zeng, H. Mao, D. Peng, Z. Yi, "Spectrogram based ...
  • A.S. Popova, A.G. Rassadin, A.A. Ponomarenko, "Emotion recognition in sound", ...
  • S. Kwon, "CLSTM: Deep feature-based speech emotion recognition using the ...
  • F. Chollet, "Deep learning with python", New York, NY: Manning ...
  • M.S. Seyfioğlu, A.M. Özbayoğlu, S.Z. Gürbüz, "Deep convolutional autoencoder for ...
  • V. Verma, N. Agarwal, N. Khanna, "DCT-domain deep convolutional neural ...
  • A. Bhavan, P. Chauhan, R.R. Shah, "Bagged support vector machines ...
  • نمایش کامل مراجع