بهبود عملکرد سیستم شناسایی گوینده با افزودن لایه های بازگشتی GRU به شبکه عصبی عمیق

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 105

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICS19_037

تاریخ نمایه سازی: 11 اسفند 1403

چکیده مقاله:

شناسایی افراد از روی سیگنال گفتار یکی از روشهای تشخیص بیومتریک است. روش های مختلفی برای پیاده سازی یک سیستم شناسایی گوینده وجود دارد و در سال های اخیر استفاده از شبکه های عصبی عمیق برای این هدف مورد توجه بسیاری از محققان قرار گرفته است. شبکه عصبی بازگشتی یکی از انواع شبکه های عصبی است که در آن از لایه های همچون LSTM و یا GRU به عنوان بخش های حافظه دار و بازگشت کننده استفاده می شود. در این مقاله ما با ترکیب یک شبکه عصبی عمیق با دو لایه GRU (DNN+GRU) یک ساختار جدید به عنوان طبقه بند در سیستم شناسایی گوینده پیشنهاد داده ایم که باعث بهبود قابل توجه در نرخ بازشناسی می شود. ویژگی استخراج شده MFCCs است که به صورت آرایه های سلولی از هر دوره تناوب گفتار Pt استخراج می شود تا به صورت یک بردار sequence به طبقه بند پیشنهادی وارد شود. آزمایش های انجام شده روی پایگاه داده داده LibriSpeech بهبود عملکرد سیستم را نسبت به روش های مورد مقایسه نشان می دهد به طوری که در بعضی از حالات به طور میانگین صحت عملکرد سیستم شناسایی گوینده ۲۶% بهتر می شود.

نویسندگان

مجتبی شریف نوقابی

دانشگاه بیرجند

سید محمد رضوی

دانشگاه بیرجند

سجاد محمدزاده

دانشگاه بیرجند