دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50

سینا غفرانی ماجلان; علی بحری

دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50

محل انتشار: ششمین کنفرانس ملی پژوهش های کاربردی در مهندسی کامپیوتر و فناوری اطلاعات

سال انتشار: 1398

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 495

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1011750

شناسه ملی سند علمی:

CEPS06_196

تاریخ نمایه سازی: 9 اردیبهشت 1399

چکیده مقاله:

از یک دیدگاه، هدف آشکارسازی رویداد صوتی برچسب گذاری محدوده های زمانی یک صدای ضبط شده است که یک توصیف نمادین را نتیجه می دهد و هر توصیف، زمان شروع، زمان پایان و یک برچسب برای نمونه واحد از یک اتفاق خاص را نشان می دهد. این تعریف، به رونویسی موزیک و هم چنین شناسایی گوینده مربوط می شود که به طور مشابه یک نشانه گذاری ساختاری از قطعه های زمانی را پوشش می دهد، و بیشتر بر تبدیلات گفتار تمرکز دارد تا رویدادهای منفرد صوتی. هدف از انجام این پژوهش انجام دسته بندی رویدادهای صوتی با استفاده از ویژگی های MFCC و معماری ResNet-50 بوده است. نتایج حاصل از پژوهش نشان می دهد که بهترین شبکه های عصبی در حوزه تصویر می توانند نتایجی عالی در طبقه بندی صوت نیز به دست آورند. هم چنین می توان گفت تغییر در مقدار نرخ یادگیری می تواند منجر به بهبود فرایند آموزش شود.

کلیدواژه ها:

رویداد صوتی ، از ویژگی MFCC ، معماری ResNet-50

نویسندگان

سینا غفرانی ماجلان

گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران

علی بحری

گروه سیستم های الکترونیک دیجیتال، دانشکده مهندسی برق، دانشگاه علم و صنعت، تهران، ایران