مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

محمد عسگری; مهران آقاگل زاده حاجی; سیده زهرا جلیل زاده

مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

محل انتشار: پانزدهمین اجلاس سراسری فناوری رسانه

سال انتشار: 1397

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 885

فایل این مقاله در 10 صفحه با فرمت PDF و WORD قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > شبکه عصبی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/822334

شناسه ملی سند علمی:

MTEC15_007

تاریخ نمایه سازی: 6 بهمن 1397

چکیده مقاله:

هدف این از این مقاله، استفاده از ویژگی نوین PNCC ( ضرایب کپسترال نرمالیزه شده توان) در ترکیب با شبکه های عصبی عمیق جهت مقاوم سازی بازشناسی گفتار است که شبکه های عصبی عمیق به دو منظور پس پردازش روی ویژگی ها و مدل سازی آکوستیکی مورد استفاده قرار گرفته است. در بخش پس پردازش ویژگی ها از شبکه عصبی باور عمیق و نیز در بخش مدل سازی آکوستیکی از شبکه ی عصبی عمیق DNN استفاده شده است. روش مرجع برای مقایسه ی نتایج به دست آمده، استفاده از الگوریتم استخراج ویژگی MFCC ( ضرایب کپسترال مقیاس مل ) و مدل HMM-DNN با استفاده از ابزار Kaldi می باشد. در آزمایش-های انجام شده مشاهده شده است که به عنوان مثال برای نویز خیابان، استفاده از ویژگی PNCC نسبت به ویژگی MFCC به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 5/8 درصد شده است. همچنین استفاده از شبکه ی باور عمیق به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 94/2 درصد شده است و همچنین استفاده از شبکه ی باور عمیق در SNRهای پایین عملکرد بهتری داشته است.

کلیدواژه ها:

مقاوم سازی ، بازشناسی گفتار ، استخراج ویژگی ، شبکه عصبی باور عمیق ، ویژگی PNCC

نویسندگان

محمد عسگری

دانشکده صدا و سیمای جمهوری اسلامی ایران

مهران آقاگل زاده حاجی

دانشکده صدا و سیمای جمهوری اسلامی ایران

سیده زهرا جلیل زاده

سازمان صدا و سیما