سیستم شناسایی دیداری- شنیداری گفتار برپایه مدل
محل انتشار: پنجمین کنفرانس ماشین بینایی و پردازش تصویر
سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,036
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICMVIP05_083
تاریخ نمایه سازی: 29 اردیبهشت 1387
چکیده مقاله:
ا توسعه روزافزون کامپیوتر بر اهمیت نحوه ارتباط بین انسان وماشین افزوده است. از آنجایی که گفتار یکی از اصل یترین ابزارانسان در برقراری ارتباط است، لذا توجهی خاص به آن نیز برای ارتباط با ماشین در تحقیقات مشاهده می شود. از بزرگترین اشکالاتی که در سیستم های ماشینی درک گفتار امروزه وجود دارد، حساسیت بالای آنها به اغتشاش صوتی محیط است.راندمان این سیستم ها در چنین محیطی به شدت کاهش می یابد. انسان خود در درک گفتار تنها از اطلاعات صوتی استفاده نمی کند، بلکه بکارگیری اطلاعات دیگری همچون اطلاعات بصری به او کمک می کند تا فهم بهتری از اصوات دریافتی داشته باشد. بر این اساس و به منظور الگو برداری از رفتار انسان، در این مقاله الگوریتمی مبتنی بر اطلاعات دیداری‐ شنیداری برای بازشناسایی و درک گفتار ارائه می شود. اطلاعات دیداری بکار رفته در اینجا حرکات لب است. به منظور دنبال کردن حرکات لب در این مقاله از مدل ظاهر استفاده شده است. مدل بکار رفته ترکیبی از مدل شکل و مدل سطح خاکستری است که ترکیب دو جزء لب و چشم ها را بکار می گیرد. در روش پیشنهادی ابتدا چشم ها و گوشه های لب شناسایی و از آن برای افزایش سرعت انطباق مدل استفاده می شود. پس از انطباق مدل، پارامترهای مدل به همراه ویژگیهای صوتی به عنوان بردار ویژگی برای بازشناسی گقتار به یک شبکه عصبی احتمالاتی (PNN)داده می شود. آزمایش ها نشان میدهند که نرخ شناسایی در استفاده از فقط اطلاعات دیداری و شنیداری بترتیب ۳۷۷ % و ۷۰ % است. این در حالی است که استفاده ازاطلاعات دیداری‐ شنیداری این نرخ را به ۸۵ % افزایش می دهد.
کلیدواژه ها:
نویسندگان
شبنم شادرو
گروه ارشد هوش مصنوعی دانشگاه آزاد اسلامی گروه کامپیوتردانشکده مهن
حمیدرضا پوررضا
گروه ارشد هوش مصنوعی دانشگاه آزاد اسلامی گروه کامپیوتردانشکده مهن