دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 495

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEPS06_196

تاریخ نمایه سازی: 9 اردیبهشت 1399

چکیده مقاله:

از یک دیدگاه، هدف آشکارسازی رویداد صوتی برچسب گذاری محدوده های زمانی یک صدای ضبط شده است که یک توصیف نمادین را نتیجه می دهد و هر توصیف، زمان شروع، زمان پایان و یک برچسب برای نمونه واحد از یک اتفاق خاص را نشان می دهد. این تعریف، به رونویسی موزیک و هم چنین شناسایی گوینده مربوط می شود که به طور مشابه یک نشانه گذاری ساختاری از قطعه های زمانی را پوشش می دهد، و بیشتر بر تبدیلات گفتار تمرکز دارد تا رویدادهای منفرد صوتی. هدف از انجام این پژوهش انجام دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50 بوده است. نتایج حاصل از پژوهش نشان می دهد که بهترین شبکه های عصبی در حوزه تصویر می توانند نتایجی عالی در طبقه بندی صوت نیز به دست آورند. هم چنین می توان گفت تغییر در مقدار نرخ یادگیری می تواند منجر به بهبود فرایند آموزش شود.

نویسندگان

سینا غفرانی ماجلان

گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران

علی بحری

گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران