استخراج ویژگیهای گفتاری مقاوم به نویز با استفاده از شبکه عصبی درهم پیچش

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 458

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SPIS02_018

تاریخ نمایه سازی: 10 تیر 1396

چکیده مقاله:

شبکه های عصبی درهم پیچش به عنوان گروهی از شبکه های عصبی عمیق، در سال های اخیر کاربرد فراوانی در مدلسازی آکوستیک و همچنین استخراج ویژگی و مدل سازی توام در بازشناسی گفتار یافته اند. ورودی این شبکه های عصبی در تحقیقات اخیر، طیف نگار گفتار و یا حتی خود گفتار خام بوده است. در مقاله حاضر، پیشنهاد می شود تا از شبکه عصبی درهم پیچش برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالی که ورودی شبکه عصبی درهم پیچش طیف سیگنال گفتار نویزی و خروجی هدف آن خروجی های متناظر تمیز از بانک فیلتر ملی است. به این ترتیب شبکه عصبی درهم پیچش ویژگی های مقاوم به نویز را از طیف سیگنال گفتار استخراج می نماید. برای یادگیری و استخراج ویژگی بهتر توسط شبکه عصبی درهم پیچش، ساختار و پارامترهای مختلف آن از قبیل اندازه فیلتر درهم پیچش، اندازه ادغام و تعداد نورون ها در هر لایه در کار حاضر مورد بررسی قرار گرفته اند. آزمایش های انجام شده روی دادگان Aurora2 با استفاده از یک سیستم بازشناسی گفتار متشکل از مدل مخلوط گاوسی و مدل مخفی مارکف، نشان می دهند که شبکه های عصبی درهم پیچش عملکرد بهتری در استخراج ویژگی مقاوم به نویز نسبت به شبکه های باور عمیق و خود بانک فیلتر مل دارد، به طوری که میانگین دقت بازشناسی را نسبت به شبکه ی باور عمیق 25 درصد بهبود می دهد

کلیدواژه ها:

شبکه عصبی درهم پیچش بازشناسی مقاوم گفتار درهم پیچش ادغام بانک فیلترمل

نویسندگان

نوید نادری

دانشجوی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران

بابک ناصر شریف

دانشکده مهندسی کامپیوتر، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • بنی‌اردلان فائزه، اکبری احمد، ناصرشریف بابک، "حذف نویز و ...
  • سیستم‌های هوشمند، دانشگاه صنعتی امیرکبیر، دوره اول، 1394 ...
  • غلامی‌پور مجتبی، ناصرشریف بابک، "مقاوم‌سازی ویژگی‌های مل کپستروم نسبت به ...
  • Abdel-Hamid, O., Mohamed, A. _ Jiang, H., Deng, L., Penn, ...
  • Ikbal, S., Misra, H., Bourlard, H. "Phase autocorrelation derived robust ...
  • Abdel-Hamid, O., Mohamed, A. r., Jiang, H., and Penn, G., ...
  • Du J., Wang Q., Gao T., Xu Y., Dai L., ...
  • _ _ _ _ speech recognition." In Proc. ICASSP, pp. ...
  • Mohamed A., Dahl G.E., Hinton CG., "Acoustic Modeling Using Deep ...
  • Sainath, T. N., Mohamed, A.-r., Kingsbury, B., and Ramabhadran, B., ...
  • Abdel-Hamid, O., Deng, L, , and Yu, D., "Exploring convolutional ...
  • _ _ _ _ networks, " in Interspeech, p, 1766- ...
  • _ _ _ _ International Conference on Acoustics, Speech and ...
  • Palaz, D., Doss, M. M.-, and Collobert, . "Convolutionl Neural ...
  • _ _ _ _ scale speech tasks, " Neural Networks, ...
  • Takashima, Y, Nakashika, T., Takiguchi, T., and Ariki, Y., "Feature ...
  • Lozano-Diez, A., Zazo-Candil, R., G on Z alez-Dominguez, J., Toledano, ...
  • Thomas, S., Ganapathy, S., Saon, G., and Soltau, H., "Analyzing ...
  • mismatched acoustic conditions, " in 2014 IEEE International Conference on ...
  • Yeh, R., H as egawa-Johnson, M., and Do, M. . ...
  • _ _ _ neural networks, " in 2015 IEEE International ...
  • Sainath, T. N, Weiss, . J., Senior, A., Wilson, K. ...
  • _ _ _ framework, " in Automate Speech Recognition and ...
  • Sainath, T. N., Kingsbury, B., Mohamed, A.-r., Dahl, G. E., ...
  • Palaz, D., and Collobert, R., "Analysis of cnn-based speech _ ...
  • Hirsch, H.-G., and Pearce, D, "The Aurora experimental ...
  • Recogition: Challenges for the new Millenium ISCA Tutorial and Research ...
  • Agarwal A., Akchurin E., et al., "An Introduction to Computational ...
  • نمایش کامل مراجع