تشخیص گفتار از موسیقی با استفاده از شبکه عصبی عمیق

جواد پیوندی; هادی سلطانی زاده

تشخیص گفتار از موسیقی با استفاده از شبکه عصبی عمیق

محل انتشار: هفتمین کنفرانس ملی مهندسی برق و الکترونیک ایران

سال انتشار: 1394

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 691

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > شبکه عصبی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/459533

شناسه ملی سند علمی:

ICEEE07_549

تاریخ نمایه سازی: 19 اردیبهشت 1395

چکیده مقاله:

مساله تشخیص گفتار از موسیقی، یک مساله رده بندی دوکلاسه است که در آن از هر فریم مجموعهای از ویژگیها استخراج شده و توسط یک رده بند به یکی از دو کلاس موسیقی یا گفتار برچسب زده میشود. برای حل مساله تشخیص گفتار از موسیقی، معمولا از ردهبندهای مدل مخلوط گوسی یا ماشین بردار پشتیبان، استفاده میکنند. در این مقاله، به منظور دستیابی به مجموعه ویژگی بهینه، ترکیبی از ویژگیهای کوتاهمدت و بلند مدت مورد استفاده قرار گرفته است. در اینجا برای اولین بار استفاده از شبکه باور عمیق به عنوان ردهبند در حل مساله تشخیص گفتار از موسیقی پیشنهاد میشود. به همین منظور یک شبکه باور عمیق طراحی شده که در ابتدای کار پیشآموزش، داده میشود و سپس روش انتشار رو به عقب، وزنهای شبکه باور عمیق را تنظیم میکند. به منظور ارزیابی روش پیشنهادی خود، از مجموعه دادههای GTZAN و TIMIT بهره گرفته شده و روش خود را نسبت به مدل مخلوط گوسی که رایجترین روش در تشخیص گفتار از موسیقی است، مقایسه میکنیم. دقت روش پیشنهادی با استفاده از مجموعه ویژگیهای بهینه، 19 % در سطح فریم است که در مقایسه با مدل مخلوط گوسی 6 درصد بهبود داشته است.

کلیدواژه ها:

تشخیص گفتار از موسیقی - (SMD) ، ویژگیهای طیفی ، ویژگیهای کپستروم مل ، شبکه باور عمیق ، مدل مخلوط گوسی

نویسندگان

جواد پیوندی

دانشکده برق و کامپیوتر، دانشگاه سمنان سمنان، ایران

هادی سلطانی زاده

دانشکده برق و کامپیوتر، دانشگاه سمنان سمنان، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

E. Scheirer and M Slaney, "Construction and evaluation of a ...
El-Maleh, K., Klein, M., Petrucci, G., Kabal, P. , "Speech/music ...
C. Panagiotakis and G. Tziritas, _ speech/music discriminator based on ...
A. Pikrakis, T. Giannakopoulos, and S. Theodoridis, "A speech/music _ ...
Abdel-rahman Mohamed, George E Dah! and Geoffrey Hinton, ...
L. R. Rabiner and R W. Schafer, Theory and Applications ...
Tzanetakis, G., Cook, P. , "Musical genre classifcation of audio ...
Mohamed, Abdel-rahman, et al, "Deep belief networks using ...

نمایش کامل مراجع