مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 597

فایل این مقاله در 10 صفحه با فرمت PDF و WORD قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

MTEC15_007

تاریخ نمایه سازی: 6 بهمن 1397

چکیده مقاله:

هدف این از این مقاله، استفاده از ویژگی نوین PNCC ( ضرایب کپسترال نرمالیزه شده توان) در ترکیب با شبکه های عصبی عمیق جهت مقاوم سازی بازشناسی گفتار است که شبکه های عصبی عمیق به دو منظور پس پردازش روی ویژگی ها و مدل سازی آکوستیکی مورد استفاده قرار گرفته است. در بخش پس پردازش ویژگی ها از شبکه عصبی باور عمیق و نیز در بخش مدل سازی آکوستیکی از شبکه ی عصبی عمیق DNN استفاده شده است. روش مرجع برای مقایسه ی نتایج به دست آمده، استفاده از الگوریتم استخراج ویژگی MFCC ( ضرایب کپسترال مقیاس مل ) و مدل HMM-DNN با استفاده از ابزار Kaldi می باشد. در آزمایش-های انجام شده مشاهده شده است که به عنوان مثال برای نویز خیابان، استفاده از ویژگی PNCC نسبت به ویژگی MFCC به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 5/8 درصد شده است. همچنین استفاده از شبکه ی باور عمیق به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 94/2 درصد شده است و همچنین استفاده از شبکه ی باور عمیق در SNRهای پایین عملکرد بهتری داشته است.

کلیدواژه ها:

نویسندگان

محمد عسگری

دانشکده صدا و سیمای جمهوری اسلامی ایران

مهران آقاگل زاده حاجی

دانشکده صدا و سیمای جمهوری اسلامی ایران

سیده زهرا جلیل زاده

سازمان صدا و سیما