شناسایی و تقطیع همپوشانی گفتار گویندگان به کمک روشهای یادگیری ماشین و کاربرد آن در شاخص گذاری گفتار گویندگان

  • سال انتشار: 1386
  • محل انتشار: پانزدهیمن کنفرانس مهندسی برق ایران
  • کد COI اختصاصی: ICEE15_223
  • زبان مقاله: فارسی
  • تعداد مشاهده: 2897
دانلود فایل این مقاله

نویسندگان

محمدحسین معطر

آزمایشگاه سیستمهای هوشمند پردازش صوت و گفتار، دانشکده مهندسی کامپیو

محمدمهدی همایونپور

آزمایشگاه سیستمهای هوشمند پردازش صوت و گفتار، دانشکده مهندسی کامپیو

سعید شیری قیداری

آزمایشگاه سیستمهای هوشمند پردازش صوت و گفتار، دانشکده مهندسی کامپیو

چکیده

همپوشانی در گفتار به معنای وجود و تاثیر گفتار بیش از یک فرد در سیگنال صوتی به شکل همزمان است و معمولا در اثر نزدیکی منابع صوتی و یا اختلال در کانال انتقال گفتار روی میدهد. وجود همپوشانی در گفتار تاثیرات مخربی بر میزان شناسایی دارد و همچنین در ردیابی و تشخیص فعالیتهای گویندگان از اهمیت بالایی برخوردار است. در اکثر روشهایی که تاکنون برای ناسایی همپوشانی در گفتار پیشنهاد شده است. از ویژگیهایی مثل تناوب طیف، سیگنال گفتار برای این منظور استفاده شده است و کمتر از روشهایی برای یادگیری سیگنال گفتار همپوشان استفاده شده است. در این مقاله برخی از روشهای یادگیری ماشین مثل، شبکه های عصبی، ماشین بردار پشتیبان، دسته بندی کنندهk نزدیک ترین همسایه و همچنین مدل مخلوط گوسی برای مدلسازی و سپس تقطیع گفتار دارای همپوشانی مورد بررسی قرار گرفته است. نتایج حاصل از ارزیابی ها حکایت ازکارایی بسیار خوب روشهایی مانند SVM و GMM در شناسایی و تقطیع قطعات گفتاری دارای همپوشانی دارد.

کلیدواژه ها

شاخص گذاری گفتار مبتنی بر گوینده ، تقطیع همپوشانی ، ماشین بردار پشتیبان ، مدل مخلوط گوسی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.