تشخیص سازهای موسیقیایی با استفاده از شبکه ی عصبی کانولوشن

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 338

فایل این مقاله در 25 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CECCONF11_007

تاریخ نمایه سازی: 6 دی 1399

چکیده مقاله:

در علم شبکه هاي عصبی کانولووشن، علاوه بر تصویر، میتوانیم موسیقی را با عناوینی همچون گام موسیقی، کوك، سرعت قطعه و سازبندي تعریف کنیم و یا در ابعاد گسترده تر، به طور مثال بر اساس ژانر موسیقی و یا برچسب هایی که خورده است، آن را دسته بندي کنیم. با وجود اینکه انسان توانایی تشخیص مواردي همچون صفات و عناوین یک قطعه ي موسیقی را دارد، استنتاجعملکرد و مدل ها جهت تفاوت قائل شدن در سبک هاي موسیقی به منظور طبقه بندي آن، عملی چالش برانگیز میباشد. با این حال این موضوع، هدفی است که "بازیابی اطلاعات موسیقی "(MIR) Music Information Retrieval با آن درگیر است یکی از وظایف MIR، که در اینجا بررسی می شود، تشخیص سازهاي موسیقیایی یا شناسایی ساز Instrument Recognition - IR می باشد. در بیشتر موارد، ورودي براي سیستم هاي MIR، تنها شامل تعریف ابتدایی از صدا می باشد: یک شکل موجی دیجیتالی. به دلیل پیشرف تهاي اخیر در تکونولوژي، تعداد فراوانی صوت Audio به شکل دیجیتالی وجود دارد تا در سیستم شبکه هاي توزیع شده ذخیره شود. به طور همزمان، متدها و روش هاي یادگیري ماشین، توانایی خود را براي یادگیري و طبقه بندي داده هاي عظیم و بزرگ در مسیري همانند یادگیري انسان از طریق تجربه کردن، اثبات کرده اند. با ترکیب کردن این دو عنصر می توانیم دلیل افزایش پیوسته میزان صوت دیجیتالی را با تحلیل روش هاي یادگیري ماشین را پیدا کنیم تا به صورت خودکار، یک شکل موجی صوتی خاص را با صفات پرمحتواتري تعریف کنیم و بدون دانش قبلی، آن را تفسیر کنیم. تکنیک هاي یادگیري عمیق، که خود یک شکل خاص از یادگیري ماشین می باشد، به صورت خاص براي انجام دادن این امر مناسب می باشند زیرا این متدها قادر خواهد بود تا یک مدل سلسله مراتبی ایجاد کنند تا الگوهاي داده ها را همانند ساختار طبیعی و ذاتی سلسلهمرابی موسیقی تحلیل کند. در این مقاله سیستمی طراحی می کنیم تا سازهاي موسیقی را تشخیص دهد و سیستم تشخیص از طریق شبکه ي عصبی کانولووشن خواهد بود. بدین شکل که به کمک تبدیل فوریه، تبدیل کوتاه فوریه، طیف نگار و MFCC، فایل هاي صوتی موجود در دیتاست را می شنود و پس از آن، تشخیص میدهد که هر فایل صوتی متعلق به کدام کلاس از سازه ايتعریف شده می باشد

نویسندگان

شایان دیانتی

دانشگاه آزاد اسلامی واحد تهران غرب

پیمان بابایی

دانشگاه آزاد اسلامی واحد تهران غرب