چیدمان بهینه ارایه میکروفونی با هدف افزایش دقت تشخیص گفتار دوردست در سیستم های بازشناسی گفتار خودکار

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 658

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ISAV10_104

تاریخ نمایه سازی: 18 اسفند 1399

چکیده مقاله:

تشخیص گفتار از راه دور نویدبخش طبیعی ترین رابط انسان و رایانه می باشد زیرا تعامل انسان و ماشین را از طریق گفتار، بدون نی از به استفاده از میکروفون های متصل به سر و بدن، امکان پذیر می سازد. با این حال هنوز تشخیص گفتار دوردست امری چالش برانگیز است. در این مقاله، پردازش آرایه و بطورخاص شکل دهی پرتو جهت تشخیص گفتار دوردست، به همراه نتایج تجربی که اثربخشی الگوریتم های مختلف شکل دهی پرتو را شرح داده، ارائه شده است. و همچنین، سعی بر این است تا با بررسی هندسه های مختلف آرایه های میکروفونی و چینش مناسب میکروفون ها، حداکثر دقت تشخیص گفتار دوردست با استفاده از معیار نرخ خطای کلمه در مقایسه با میکروفون یقه ای حاصل شود. نرخ خطای کلمه یک میکروفون منفرد از آرایه، با استفاده از یک سیستم بازشناسی گفتار معادل با % 35.74 بدست آمد که این مقدار، مرجع مقایسه با آرایه ها با هندسه های مختلف، قرار داده شد . علاوه بر این، به مقایسه عملکرد چند الگوریتم شکل دهی پرتو با استفاده از معیار FWSegSNR پرداخته شد که از این میان شکل دهنده پرتو Superdirective بیشترین مقدار یعنی 8.32 دسی بل را به خود اختصاص داد. بر اساس نتایج و با مقایسه عملکرد آرایه ای کروی، دایروی و خطی نشان داده شد که یک آرایه کروی با قطر 8.4 سانتیمتر و 32 میکروفون می تواند دقت تشخیص % 5.9 درصد ارائه دهد که این مقدار قابل مقایسه یا بهتر از آنچه که توسط یک آرایه خطی و دایروی حاصل می شود، می باشد

نویسندگان

سارا صادقی

ایران تهران خیابان ولی عصر (عج) دانشگاه صدا و سیمای جمهوری اسلامی ایران، دانشکده فنی و مهندسی رسانه کارشناس ارشد دانشگاه صدا و سیما

امیرحسین علی محمدی

کارشناس ارشد دانشگاه صدا و سیما

محمد عسگری

عضو هیات علمی دانشگاه صدا و سیما

محمدابراهیم صادقی

عضو هیات علمی دانشگاه صدا و سیما