دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50
سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 495
فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CEPS06_196
تاریخ نمایه سازی: 9 اردیبهشت 1399
چکیده مقاله:
از یک دیدگاه، هدف آشکارسازی رویداد صوتی برچسب گذاری محدوده های زمانی یک صدای ضبط شده است که یک توصیف نمادین را نتیجه می دهد و هر توصیف، زمان شروع، زمان پایان و یک برچسب برای نمونه واحد از یک اتفاق خاص را نشان می دهد. این تعریف، به رونویسی موزیک و هم چنین شناسایی گوینده مربوط می شود که به طور مشابه یک نشانه گذاری ساختاری از قطعه های زمانی را پوشش می دهد، و بیشتر بر تبدیلات گفتار تمرکز دارد تا رویدادهای منفرد صوتی. هدف از انجام این پژوهش انجام دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50 بوده است. نتایج حاصل از پژوهش نشان می دهد که بهترین شبکه های عصبی در حوزه تصویر می توانند نتایجی عالی در طبقه بندی صوت نیز به دست آورند. هم چنین می توان گفت تغییر در مقدار نرخ یادگیری می تواند منجر به بهبود فرایند آموزش شود.
کلیدواژه ها:
نویسندگان
سینا غفرانی ماجلان
گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران
علی بحری
گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران