تشخیص خودکار گوینده مبتنی بر ویژگی های استخراج شده از بانک فیلتر گابور و شبکه های عصبی کانولوشنال
محل انتشار: فصلنامه مدل سازی در مهندسی، دوره: 21، شماره: 72
سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 53
فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_JME-21-72_004
تاریخ نمایه سازی: 14 تیر 1402
چکیده مقاله:
صدای یک انسان حاوی خصوصیاتی از قبیل: قومیت، جنسیت، احساس، سن و اطلاعات دیگری از فرد است و موضوع تشخیص گوینده به شناسایی هویت افراد بر اساس صدای آنها می پردازد. اگرچه محققان در طول سال های گذشته در این زمینه فعالیت داشته اند و روش هایی برای بهبود دقت تشخیص گوینده پیشنهاد داده اند اما هنوز چالش هایی در این زمینه وجود دارد. در این مقاله یک روش جدید تشخیص گوینده مبتنی بر فیلترهای گابور و شبکه های عصبی کانولوشنال ارایه شده است. در روش پیشنهادی، ابتدا اسپکتروگرام سیگنال صحبت فرد تشکیل می شود. سپس با طراحی موثر فیلترهای گابور، بانک فیلتر گابور ایجاد می گردد. در مرحله ی بعد اسپکتروگرام سیگنال از بانک فیلتر گابور عبور داده شده و ویژگی های سیگنال صحبت استخراج می شود. در مرحله ی آخر با استفاده از یک شبکه ی عصبی کانولوشنال، گوینده شناسایی می شود. برای ارزیابی روش پیشنهادی از دو پایگاه داده ی Aurora۲ و TIMIT استفاده شده است. نتایج نشان می دهد که روش پیشنهادی دقت بهتری نسبت به روش های پیشین دارد.
کلیدواژه ها:
نویسندگان
عبدالرضا رشنو
گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران
صادق فدایی
گروه مهندسی برق، دانشکده فنی و مهندسی ، دانشگاه یاسوج، یاسوج، ایران
عبدالصمد حمیدی
گروه مهندسی برق، دانشکده مهندسی، دانشگاه لرستان، خرم آباد، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :