طراحی یک الگوریتم بهینه در تشخیص گفتار با استفاده از شبکه های عصبیعمیق و قضیه تیلور با استفاده از مفاهیم منیفولدها

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 57

فایل این مقاله در 23 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

GERMANCONF05_019

تاریخ نمایه سازی: 31 اردیبهشت 1403

چکیده مقاله:

شبکه های عصبی عمیق (DNN) به دلیل توانایی آن ها در یادگیری الگوهای پیچیده در داده های گفتاریبه ابزاری محبوب برای تشخیص گفتار تبدیل شده اند. با این حال، آموزش DNN ها می تواند از نظر محاسباتی گران و زمان بر باشد و بهینه سازی عملکرد آن ها می تواند چالش برانگیز باشد. این مقاله مروری بر روش های بهینه سازی برای DNN ها در تشخیص گفتار ارائه می دهد. این مقاله ابتدا اهمیتبهینه سازی DNN ها برای تشخیص گفتار، از جمله نیاز به الگوریتم های آموزشی کارآمد و تاثیرفراپارامترها بر عملکرد را مورد بحث قرار می دهد. سپس چندین روش بهینه سازی، از جمله نزول گرادیان تصادفی، روش های مبتنی بر تکانه، و روش های نرخ یادگیری تطبیقی را ارائه می کند. این مقاله همچنین تکنیک های منظم سازی، مانند کاهش وزن و ترک تحصیل را مورد بحث قرار می دهد، که می تواند به جلوگیری از تناسب بیش از حد و بهبود عملکرد تعمیم کمک کند. علاوه بر این،تکنیک هایی را برای مقداردهی اولیه وزن ها و معماری های DNN، مانند پیش آموزش و یادگیری انتقال، پوشش می دهد. در نهایت، مقاله با بحث در مورد چالش های فعلی و جهت گیری های آینده در بهینهسازی DNN ها برای تشخیص گفتار به پایان می رسد. اینها شامل توسعه الگوریتم های بهینه سازیکارآمدتر، بهبود تفسیرپذیری DNN و کاوش در معماری های جدید و تکنیک های منظم سازی است. به طور کلی، این مقاله اهمیت روش های بهینه سازی برای DNNها را در تشخیص گفتار برجسته می کندو یک مرور کلی از تکنیک های فعلی و جهت های آینده ارائه می دهد.گفتار انسان شاید طبیعی ترین حالت ارتباطی باشد و به طور بالقوه می تواند یک رابط کاربری بصری برای ماشین ها فراهم کند. وظیفهنگاشت بخشی از سیگنال صوتی گفتاری به رونویسی از کلمات موضوع مورد توجه مستمر محققان برای بیش از پنجاه سال بوده است و در این مدت به طور قابل توجهی به بلوغ رسیده است [۳، ۴]. اینتا حدی به دلیل افزایش منابع محاسباتی موجود و تا حدی به دلیل ظهور تکنیک های مدل سازیپیچیده تر است. تشخیص خودکار گفتار (ASR) به طور رسمی می تواند به عنوان یک کار طبقه بندیسطح توالی به ترتیب توصیف شود که در آن شکل موج صوتیO ، هدف تولید فرضیه صحیح دنبالهHاست. در یادگیری ماشین، چنین مشکلی با تقسیم کردن مسئله طبقه بندی حل می شود. به دو مرحله مجزا: یک مرحله استنتاج که (O|H) P را با استفاده از داده های آموزشی مدل می کند و مرحله تصمیم گیری بعدی که در آن تئوری تصمیم برای انجام تکالیف کلاس بهینه با استفاده از احتمالات پسین به کار می رود. با فرض درستی مدل استنتاج انتخاب شده، وظیفه ASR می تواند به طور رسمی به عنوان استفاده از یک قاعده تصمیم گیری توصیف شود که حداقل نرخ خطایفرضیه/جمله را به دست می دهد برای سیستم های پیشرفتهASR ، مدل استنتاج معمولا از دو جزء تشکیل شده است: یک مدل صوتی، که نشان دهنده رابطه بین سیگنال صوتی و واج ها یا دیگرواحدهای زبانی سازنده گفتار است، و یک مدل زبان که توزیع احتمال را ارائه میکند. بیش از توالیکلمات تا همین اواخر، مدل آکوستیک در سیستم های مدرن متشکل از مدل های مارکوف پنهان(HMMs)بود که با تغییرپذیری زمانی گفتار سروکار داشت، و مدل های مخلوط گاوسی (GMMs)که مدل سازی می کردند که هر حالت یک HMM چقدر ویژگی های طیفی را نشان می دهد

نویسندگان

علی فریدی

استاد دانشگاه،استان ایلام

عبدالله کریمی

دانشجوی کارشناسی ارشد نرم افزار،استان ایلام