تشخیص گفتار از موسیقی با استفاده از شبکه عصبی عمیق
محل انتشار: هفتمین کنفرانس ملی مهندسی برق و الکترونیک ایران
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 691
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICEEE07_549
تاریخ نمایه سازی: 19 اردیبهشت 1395
چکیده مقاله:
مساله تشخیص گفتار از موسیقی، یک مساله رده بندی دوکلاسه است که در آن از هر فریم مجموعهای از ویژگیها استخراج شده و توسط یک رده بند به یکی از دو کلاس موسیقی یا گفتار برچسب زده میشود. برای حل مساله تشخیص گفتار از موسیقی، معمولا از ردهبندهای مدل مخلوط گوسی یا ماشین بردار پشتیبان، استفاده میکنند. در این مقاله، به منظور دستیابی به مجموعه ویژگی بهینه، ترکیبی از ویژگیهای کوتاهمدت و بلند مدت مورد استفاده قرار گرفته است. در اینجا برای اولین بار استفاده از شبکه باور عمیق به عنوان ردهبند در حل مساله تشخیص گفتار از موسیقی پیشنهاد میشود. به همین منظور یک شبکه باور عمیق طراحی شده که در ابتدای کار پیشآموزش، داده میشود و سپس روش انتشار رو به عقب، وزنهای شبکه باور عمیق را تنظیم میکند. به منظور ارزیابی روش پیشنهادی خود، از مجموعه دادههای GTZAN و TIMIT بهره گرفته شده و روش خود را نسبت به مدل مخلوط گوسی که رایجترین روش در تشخیص گفتار از موسیقی است، مقایسه میکنیم. دقت روش پیشنهادی با استفاده از مجموعه ویژگیهای بهینه، 19 % در سطح فریم است که در مقایسه با مدل مخلوط گوسی 6 درصد بهبود داشته است.
کلیدواژه ها:
تشخیص گفتار از موسیقی - (SMD) ، ویژگیهای طیفی ، ویژگیهای کپستروم مل ، شبکه باور عمیق ، مدل مخلوط گوسی
نویسندگان
جواد پیوندی
دانشکده برق و کامپیوتر، دانشگاه سمنان سمنان، ایران
هادی سلطانی زاده
دانشکده برق و کامپیوتر، دانشگاه سمنان سمنان، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :