بهبود تعامل گفتاری انسان و ماشین با به کارگیری میکروفون های مجازی در یک آرایه کروی

امین اصلان زاده; محمد ابراهیم صادقی; مائده کنعانی

بهبود تعامل گفتاری انسان و ماشین با به کارگیری میکروفون های مجازی در یک آرایه کروی

محل انتشار: هشتمین همایش بین المللی مهندسی فناوری اطلاعات، کامپیوتر و مخابرات ایران

سال انتشار: 1403

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 196

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2205985

شناسه ملی سند علمی:

ICTBC08_065

تاریخ نمایه سازی: 28 اسفند 1403

چکیده مقاله:

ضبط گفتار در فاصله دور با کیفیت بالا، می تواند تعامل بین انسان و ماشین را تسهیل بخشد و این تعامل را همانند تعامل انسان و انسان، آسان نماید و به انسان اجازه می دهد تا بدون نیاز به نزدیک شدن به میکروفون ها، با ربات ها و دستگاه های هوشمند تعامل داشته باشد. این کار موجب کاهش خطای ماشین در کاربردهای صوتی از جمله سیستم های بازشناسی خودکار گفتار، سیستم های بهسازی گفتار، سیستم های تبدیل صوت و سیستم های جداسازی گفتار می شود. همچنین مزیت این روش در کاربردهای صوتی در فاصله دور همانند خانه های هوشمند، افرادی که ناتوانی های فیزیکی دارند، سیستم های شنود و ...، مشهود است. اما ضبط گفتار با کیفیت در فاصله دور بسیار چالش برانگیز است زیرا که عوامل بسیار زیادی از جمله واخنش (طنین) و انواع نویزها، کیفیت گفتار مورد نظر را کاهش می دهند؛ به ویژه اگر زمان واخنش بیشتر از نیم ثانیه باشد. در این مقاله، یک رویکرد جدید برای بهبود گفتار تک گوینده و کاهش خطای ماشین در محیط های پرواخنش نویزی ارائه شده است. در رویکرد پیشنهادی، سیگنال هر نقطه در سطح کره با استفاده از ترکیب ۳۲ سیگنال میکروفون بر روی سطح یک آرایه کروی بازتولید می شود. سپس با اعمال شکل دهنده پرتو ثابت، سیگنال های بهبود یافته با استفاده از الگوریتم WPE پردازش می شود. بازتولید سیگنال نقاط مورد نظر که به ایده ساخت میکروفون های مجازی معروف است با استفاده از روش غیر پارامتریک بازتولید میدان صوتی در حوزه هارمونیک های کروی انجام گرفته است. در این مقاله با استفاده از داده های حاصل از شبیه سازی یک اتاق با زمان واخنش یک ثانیه و نسبت سیگنال به نویز ۱۰ دسی بل، بهبود عملکرد یک سیستم تشخیص خودکار گفتار توسط معیار نرخ خطای کلمه مورد سنجش قرار گرفته است. با بکارگیری سیستم تشخیص خودکار گفتار WeNet ۲، مقدار بهبود نرخ خطای کلمه ۲۸% حاصل شده است.

کلیدواژه ها:

شکل دهی پرتو ، حوزه هارمونیک های کروی ، آرایه کروی ، میکروفون مجازی ، واخنش زیاد ، تشخیص گفتار در فاصله دور ، نرخ خطای کلمه

نویسندگان

امین اصلان زاده

فارغ التحصیل کارشناسی ارشد مهندسی صدا، دانشگاه صدا و سیمای جمهوری اسلامی ایران

محمد ابراهیم صادقی

عضو هیئت علمی گروه صدا، دانشکده فنی و مهندسی رسانه، دانشگاه صدا و سیمای جمهوری اسلامی ایران

مائده کنعانی

فارغ التحصیل کارشناسی ارشد مهندسی صدا، دانشگاه صدا و سیمای جمهوری اسلامی ایران