روش های اتصال گرای جدید بر گرفته از سامانه ادراک گفتار انسان به منظور بهبود بازشناسی گفتار ماشینی

سال انتشار: 1386
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 7

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_IJBM-1-3_005

تاریخ نمایه سازی: 20 اسفند 1404

چکیده مقاله:

بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد. در مقاله حاضر با الهام از سیستم درک و بازشناسی در انسان، شبکه عصبی دو سویه جدیدی طراحی و پیاده سازی شده است. این شبکه قادر است تا با اتصالات بازگشتی ضمن مدل سازی دنباله واج نظیر کلمات مجزا، طی تکرارهای مختلف، دنباله واج استخراج شده از مدل صوتی را به دنباله واج مطلوب، اصلاح کند. برای این منظور پس از پیاده سازی روش مذکور بر روی ۴۰۰ کلمه مجزا از دادگان فارس دات تلفنی، در بهترین حالت، افزایش %۱۶.۹ در صحت بازشناسی واج مدل صوتی مشاهده شد. تشکیل بستر جذب در این شبکه عصبی دو سویه، از مزایای این شبکه در برابر شبکه های عصبی تک سویه است. در ادامه، به کمک متوالی کردن مدل واژگانی مذکور با مدل صوتی، متغیرهای بازنمایی بر اساس روش های معکوس سازی شبکه های عصبی اصلاح گردید. بهسازی گفتار با این روش نتایج قابل ملاحظه ای در کاهش عدم تطابق دادگان آزمون و آموزش در پی داشت. در این مقاله کارایی مدل واژگانی و بهسازی گفتار در قالب افزایش صحت بازشناسی واج به میزان %۱۸ نسبت به مدل صوتی نشان داده شده است.

کلیدواژه ها:

بازشناسی گفتار ، بهسازی گفتار ، معکوس سازی شبکه های عصبی ، شبکه های عصبی دوسویه ، مدلسازی واژگانی

نویسندگان

محمدرضا یزدچی

استادیار گروه مهندسی پزشکی، دانشکده فنی و مهندسی، دانشگاه اصفهان

سید علی سیدصالحی

استادیار دانشکده مهندسی پزشکی، دانشگاه صنعتی امیرکبیر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Bimbot F., Chollet G., Paoloni A., Assessment methodology for speaker ...
  • Lippmann R.P., Speech recognition by machines and humans; Speech Communication ...
  • Gong, Y.; Speech recognition in noise environments: a survey; Speech ...
  • Miller G.A., Licklider J.C.R., The intelligibility of interrupted speech; Journal ...
  • Fletcher H., Speech and Hearing in Communication. Journal of the ...
  • Furui S., Recent advances in robust speech recognition; Speech Communication ...
  • Lockwood P., Boudy J., Experiments with non-linear Spectral Subtractor (NSS), ...
  • Diamantaras K.I., Neural networks and principal component analysis, In: Handbook ...
  • Cooke M., Morris A., Green P., Recognizing Occluded Speech; ESCA ...
  • Jensen C.A., Reed R.D., Marks R.J., Inversion of Neural Networks: ...
  • Williams R.J., Inverting a Connectionist Network Mapping by Backpropagation of ...
  • سیدصاحلی سیدعلی؛ افزایش کارایی بازشناخت الگوهای شبکه های عصبی جلوسو ...
  • Bijankhan M., Seikhzadeghan J., Roohani M.R., Samareh Y., Lucas K. ...
  • ولی منصور، سیدصالحی سیدعلی؛ ارزیابی کارایی دو بازنمایی MFCC و ...
  • Nguyen D., Widrow B., Neural Networks for Selflearning Control Systems; ...
  • Koerner E., Gewaltig M.O., Koerner U., Richter A., Rodemann U., ...
  • Koerner E., Tsujino H., Masutani T., A cortical type modular ...
  • Koerner E., Matsumoto G., Cortical architecture and self-referential control for ...
  • Ghosen J., Bengio Y., Bias Learning, Knowledge sharing; IEEE Trans. ...
  • Mesulam M.M., From Sensation to Cognition; Brain, Oxford Univ. Press ...
  • انصاری لیلا؛ مدلسازی اثرات هم تولیدی آواها در یک مدل ...
  • Trappenberg, T., Continuous attractor neural networks. In L. N. de ...
  • Wu Y., Pados D.A.; A feedforward bidirectional associative memory; IEEE ...
  • نمایش کامل مراجع