تشخیص هوشمند دستورات صوتی در محیط های نویزی با دامنه لغات محدود
فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
تاریخ نمایه سازی: 28 دی 1403
چکیده مقاله:
در محیط های صنعتی و عملیاتی، دستیارهای صوتی نقش مهمی در تسهیل فرآیندهای مختلف ایفا میکنند، اما نویز بالای این محیط ها به عنوان چالشی اساسی، دقت و کارایی مدل های تشخیص گفتار را کاهش میدهد. این پژوهش با هدف بهبود تشخیص گفتار در زبان فارسی در محیط های نویزی با دامنه لغات محدود انجام شده است. در ابتدا، به دلیل فقدان پیکره ی گفتاری استاندارد برای زبان فارسی، مجموعه داده ای شامل دو بخش عمومی و تخصصی ایجاد شد. بخش عمومی شامل ۲۸۰۰۰ فایل صوتی ۱۰ ثانیه ای از ۱۴۰۰۰ کلمه در محیط های نویزی متنوع از جمله نویزهای صنعتی،نظامی، طبیعی و با تنوع جنسیتی (زن و مرد) است. بخش تخصصی نیز شامل ۸۳۰۰ فایل صوتی ۳ ثانیه ای از ۲۰۰ کلمه، همراه با صدای کودکان و نویزهای محیط های خانگی و همهمه است. در ادامه،یک مدل کاهش نویز مبتنی بر خود رمزگذار طراحی شد. سپس، مدل های مختلف تشخیص گفتار مورد بررسی قرار گرفتند و در نهایت، مدل Wav۲Vec۲.۰ به دلیل پارامترهای کمتر و کارایی بالاتر نسبت به سایر مدل ها انتخاب گردید. مدل پیشنهادی به صورت یکپارچه، شامل بخش های کاهش نویز و تشخیص گفتار، بر روی دادگان فارسی آموزش داده شد. این رویکرد یکپارچه سبب بهبود دقت با کاهش وابستگی به آموزش مجزا برای هر بخش شده است. نتایج ارزیابی با معیار نرخ خطای کلمه(WER) نشان داد که مدل بر روی داده های تمیز، نویزدار و نویز زدایی شده به ترتیب دارای خطای۳۴.۱۳ ،% ۴۳.۷۶ % و ۳۵.۶۴ % است. همچنین، مدل در محیط های نویزی و با دامنه لغات محدود به نرخ خطای کلمه ۱% دست یافت که نشان دهنده دقت بالای آن در شرایط تخصصی است . این پژوهش با ارائه یک مدل مستقل و یکپارچه برای کاهش نویز و تشخیص گفتار فارسی، امکان بهبود کنترل کیفیت و تصمیم گیری هوشمند را در محیط های صنعتی و نویزی فراهم کرده و نوآوری آن در طراحی یکپارچه مدل های کاهنده نویز و تشخیص گفتار است.
کلیدواژه ها:
نویسندگان
دانشگاه صنعتی مالک اشتر، مجتمع دانشگاهی برق و کامپیوتر، تهران، ایران
استادیار گروه هوش مصنوعی، دانشگاه صنعتی مالک اشتر، تهران، ایران