تشخیص هوشمند دستورات صوتی در محیط های نویزی با دامنه لغات محدود

سمیرا نامی ساعی; سعیده سادات سدیدپور

تشخیص هوشمند دستورات صوتی در محیط های نویزی با دامنه لغات محدود

محل انتشار: سومین کنفرانس ملی مدیریت و مهندسی کیفیت و قابلیت اتکاء

سال انتشار: 1403

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 149

فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2156365

شناسه ملی سند علمی:

GRAMS03_003

تاریخ نمایه سازی: 28 دی 1403

چکیده مقاله:

در محیط های صنعتی و عملیاتی، دستیارهای صوتی نقش مهمی در تسهیل فرآیندهای مختلف ایفا میکنند، اما نویز بالای این محیط ها به عنوان چالشی اساسی، دقت و کارایی مدل های تشخیص گفتار را کاهش میدهد. این پژوهش با هدف بهبود تشخیص گفتار در زبان فارسی در محیط های نویزی با دامنه لغات محدود انجام شده است. در ابتدا، به دلیل فقدان پیکره ی گفتاری استاندارد برای زبان فارسی، مجموعه داده ای شامل دو بخش عمومی و تخصصی ایجاد شد. بخش عمومی شامل ۲۸۰۰۰ فایل صوتی ۱۰ ثانیه ای از ۱۴۰۰۰ کلمه در محیط های نویزی متنوع از جمله نویزهای صنعتی،نظامی، طبیعی و با تنوع جنسیتی (زن و مرد) است. بخش تخصصی نیز شامل ۸۳۰۰ فایل صوتی ۳ ثانیه ای از ۲۰۰ کلمه، همراه با صدای کودکان و نویزهای محیط های خانگی و همهمه است. در ادامه،یک مدل کاهش نویز مبتنی بر خود رمزگذار طراحی شد. سپس، مدل های مختلف تشخیص گفتار مورد بررسی قرار گرفتند و در نهایت، مدل Wav۲Vec۲.۰ به دلیل پارامترهای کمتر و کارایی بالاتر نسبت به سایر مدل ها انتخاب گردید. مدل پیشنهادی به صورت یکپارچه، شامل بخش های کاهش نویز و تشخیص گفتار، بر روی دادگان فارسی آموزش داده شد. این رویکرد یکپارچه سبب بهبود دقت با کاهش وابستگی به آموزش مجزا برای هر بخش شده است. نتایج ارزیابی با معیار نرخ خطای کلمه(WER) نشان داد که مدل بر روی داده های تمیز، نویزدار و نویز زدایی شده به ترتیب دارای خطای۳۴.۱۳ ،% ۴۳.۷۶ % و ۳۵.۶۴ % است. همچنین، مدل در محیط های نویزی و با دامنه لغات محدود به نرخ خطای کلمه ۱% دست یافت که نشان دهنده دقت بالای آن در شرایط تخصصی است . این پژوهش با ارائه یک مدل مستقل و یکپارچه برای کاهش نویز و تشخیص گفتار فارسی، امکان بهبود کنترل کیفیت و تصمیم گیری هوشمند را در محیط های صنعتی و نویزی فراهم کرده و نوآوری آن در طراحی یکپارچه مدل های کاهنده نویز و تشخیص گفتار است.

کلیدواژه ها:

تشخیص گفتار ، کاهش نویز ، یادگیری عمیق ، تشخیص هوشمند ، مدل های انتها به انتها

نویسندگان

سمیرا نامی ساعی

دانشگاه صنعتی مالک اشتر، مجتمع دانشگاهی برق و کامپیوتر، تهران، ایران

سعیده سادات سدیدپور

استادیار گروه هوش مصنوعی، دانشگاه صنعتی مالک اشتر، تهران، ایران