دسته بندی اصوات محیطی با استفاده از خوشه بندی و شبکه های عصبی عمیق پیچشی

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 491

فایل این مقاله در 20 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITCONF04_048

تاریخ نمایه سازی: 13 تیر 1400

چکیده مقاله:

در این مقاله روشی بر مبنای ترکیب یادگیری با نظارت و یادگیری غیر نظارتی برای دسته بندی اصوات محیطی مجموعه ی دادگان ۱۰-ESC معرفی می گردد که در آن تبدیل فوریه زمان کوتاه بر مبنای فرکانس مل و لگاریتم اسپکترو گرام بر مبنای ضرایب مل صدای وروی، استخراج شده و به الگوریتم خوشه بندیK-means بداده میشود و به اعضای هر خوشه برچسبی خاص آن خوشه تعلق می گیرد، سپس داده ی ورودی به همراه برچسب های جدید خود به عنوان ورودی به یک شبکه ی عصبی عمیق پیچشی داده میشود. این روش در کنار استفاده از داده افزایی در جهت افزایش نمونه های آموزشی، توانست عملکرد بسیار خوبی از خود نشان دهد و بر روی مجموعه ی دادگان ESC-۱۰ به دقت میانگین ۹۱/۱درصد بر روی دسته های مختلف دست یابد.

نویسندگان

علیرضا خبازان

دانشجوی کارشناسی ارشد، دانشگاه شهید بهشتی،

حمیدرضا مطلبی زاده

دانشجوی کارشناسی ارشد، دانشگاه شهید بهشتی

یاسر شکفته

استاد یار، دانشگاه شهید بهشتی