بازشناسی گفتار با استفاده از روش های مدلهای مخفی مارکوف و شبکه های عصبی مصنوعی و سیستم های بازشناسی گفتار ترکیب ANN/HMM

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,738

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

AIHE08_277

تاریخ نمایه سازی: 13 آبان 1393

چکیده مقاله:

هدف ایجاد یک سیستم بازشناسی گفتار است که قادر به بازشناسی ارقام فارسی می باشد. سیستم های بازشناسی رقم دارای تعداد لغات کم هستند و برای کاربردهای مرتبط با تلفن، مانند شماره گیری از راه دور و یا صدور صورتحساب تلفنی بسیار اهمیت دارند. مسئله ارقام مسئله قابل دسترسی است، زیرا تعداد لغات محدود و ثابت است. البته بالا بودن کارایی این بازشناسی ها به شدت اهمیت دارد، زیرا این سیستم ها نیاز به دقت بسیار بالایی دارند. برای پیاده سازی مدل ترکیبی ANN/HMM برای بازشناسی گفتار فارسی از جعبه ابزار CSLU استفاده شد. تعداد 210 نمونه از گفتارهای یک فرد مذکر جمع آوری شد پس از حذف نویز و 47 عدد از نمونه ها به صورت دستی بر چسب گذاری آوایی شد. سپس بوسیله آن نمونه های آموزشی باقیمانده بصورت خودکار بر چسب زنی گردیده و شبکه های عصبی ANN جدیدی برای بازشناسی نهایی از نوع MLP سه لایه ایجاد شد. این ANN ها دارای 130 گره در لایه ورودی، 20 گره در لایه خروجی بودند. گره های لایه های پنهان متغیر و برابر 200،160،100،60 گرفته شده و مقایسه ای بین آنها انجام شد. برای استخراج ویژگی از چهار روش شامل MEL (12 ضریب)، مشتق MEL (12 ضریب)، انرژی (1ضریب)، و مشتق انرژی(1 ضریب)، استفاده شد و مقادیر هر کدام از این چهار روش با هم ترکیب و به شبکه عصبی داده شدند. ( به 130 گره ورودی شبکه عصبی). با اعمال بازشناسی روی داده های تست 99/4 درصد، حتی در یک مورد به دقت 100 درصد رسیدیم که با توجه به تعداد کم داده های گفتاری، نتیجه بسیار مطلوبی می باشد.

کلیدواژه ها:

شبکه های عصبی مصنوعی ، مدلهای مخفی مارکوف ، تبدیل فوریه گسسته ، رقم کننده بردار ، کدینگ پیشگویانه خطی ، الگوریتم ویتربی ، بیشینه کردن امید فازی ، شبکه های عصبی احتمالی ، شبکه های عصبی بازگشتی

نویسندگان

فاطمه صالحی

Department of Computer Engineering, Najafabad Branch, Islamic Azad University, Isfahan, Iran Faculty of Electrical and Computer Engineering, Computer and Communication Networks Research Group