تطبیق با گوینده در شبکه های عصبی عمیق با استفاده از تحلیل عامل

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 553

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SPIS02_028

تاریخ نمایه سازی: 10 تیر 1396

چکیده مقاله:

در سال های اخیر، شبکه های عصبی عمیق کاربرد فراوانی در بازشناسی گفتار و به ویژه مدل سازی آکوستیک یافته اند. این شبکه ها یا در ترکیب با مدل مخفی مارکف و یا بطور مستقل برای مدل سازی آکوستیک استفاده شده اند. نیاز به تطبیق با گوینده در بازشناسی گفتار و مدل سازی آکوستیک سبب شده است تا روش های متنوعی برای تطبیق سیستم های بازشناسی گفتار با گوینده هم در مدل های مبتنی بر مخلوط گاوسی و هم در مدل های مبتنی بر شبکه های عصبی عمیق پیشنهاد شوند. روش تحلیل عامل روشی برای تطبیق گوینده است که اخیرا مورد توجه قرار گرفته است. در مقاله حاضر روشی مبتنی بر تحلیل عامل در حوزه ی شبکه های عصبی عمیق، برای تطبیق با گوینده پیشنهاد شده است. به این ترتیب که دو شبکه عصبی عمیق گلوگاه برای بازشناسی واج و بازشناسی جنسیت گوینده بطور جداگانه آموزش میبینند. سپس لایه های گلوگاه این دو شبکه، به عنوان ویژگی و بازنمایی توصیفگر واج و جنسیت، و به عنوان دو عامل متفاوت با هم ترکیب می شوند. سپس با افزودن لایه های جدید بعد از این دو لایه گلوگاه، یک شبکه ای عصبی عمیق واحد برای بازشناسی واج آموزش می بیند. علاوه بر اینکه با بکارگیری توابع فعالیت مختلف در شبکه ای عصبی عمیق، عملا بر تنوع عامل ها افزوده شده است. ارزیابی بر روی دادگان TIMIT نشان می دهد که با ترکیب این دو عامل و در نظر گرفتن عامل جنسیت، دقت بازشناسی واج و سه واج افزایش می یابند.

نویسندگان

محمد حسن سوهان آجینی

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

احمد اکبری ازیرانی

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران

بابک ناصر شریف

دانشکده مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • روش پیشنهادی دوم، در تمامی موارد منجر به افزایش دقت ...
  • ]16[بنی اردلان ف., اکبری ا.، ناصرشریف ب.. "حذف نویز و ...
  • Dahl, G. E., Yu, D., Deng, L, Acero, A., _ ...
  • Hinton, G., et al "Deep neural networks for acoustic modeling ...
  • Povey, D, Yao K. "A basis representation of constrained MLLR ...
  • Mimura, M., Tatsuya K, "Unsupervised speaker adaptation of DNN-HMM by ...
  • _ _ _ _ Speech and Signal Processing, pp. 7947-7951. ...
  • Yao, K., Yu, , Seide, F., et al. "Adaptation of ...
  • Gemello, R., Mana, F.et al. "Linear hidden transformations for Co ...
  • Yu, D., Yao, , et al. "KL-divergence regularized deep neur، ...
  • _ _ _ Speech and Signal Processing Proceedings, IEEE, 2006. ...
  • Stadermamn, J, Rigoll. G., "Two-Stage Speaker Adaptation of Hybrid Tied-Posterior ...
  • Yu, D., Deng, L, Seide. F., "The deep tensor neurt ...
  • Yu, D., Chen X., Deng, L., "Factorized dep neural networks ...
  • speech recognition." In 2013 IEEE International Conference on Acoustics, Speech ...
  • Kundu, S., Mantena, G., et al. "Joint acoustic factor learning ...
  • Deng, L., Chen, J., "Sequence classification using the high-level ...
  • Abdel-Hamid, O., Deng, L., Yu, D., "Exploring convolutiont neural network ...
  • _ _ _ verification." IEEE Transactions on Audio, Speech, and ...
  • نمایش کامل مراجع