بدست آوردن همترازی زمانی بین متن و صوت با استفاده از ترکیب الگوریتم CTC و MarbelNetVAD

  • سال انتشار: 1402
  • محل انتشار: بیستمین سمپوزیوم بین المللی هوش مصنوعی و پردازش سیگنال
  • کد COI اختصاصی: CDI20_020
  • زبان مقاله: فارسی
  • تعداد مشاهده: 230
دانلود فایل این مقاله

نویسندگان

سید مصطفی علویان شهری

مرکز تحقیقات هوش مصنوعی

محمدصادق صفری

مرکز تحقیقات هوش مصنوعی پارت

چکیده

در این مقاله روشی جدید با استفاده از ترکیب الگوریتمهای طبقه بندی زمانی ارتباط گرا (CTC) و MarbelNetVAD به منظور برچسب زنی داده های صوتی در حالتی که علاوه بر کم بودن دادها، صوت متناظر با متن هم حالت استاندارد نداشته پیشنهاد شده است. از جمله این نوع دادها می توان به متن و صوت ادعیه مفاتیج الجنان اشاره کرد که تعداد محدودی دعا توسط چند مداح/گوینده با لحنی خاص خوانده شده است. در این روش با استفاده از الگوریتم CTC تخمین اولیه ای همترازی های زمانی، مبتنی بر توزیع احتمالی بدست آمده از یک مدل بازشناسی گفتار wav۲vec۲ بدست می آید. مشکل تخمین اولیه با توجه به نوع دادها این است که ممکن است صوت یک عبارت کوتاه از یک جمله در جمله دیگر تشخیص داده شود. از این رو، در ادامه با ترکیب خروجی CTC و زمانهای بدست آمده از MarbelNetVAD تخمین دقیقی از همترازی زمانی هر عبارت و صوت متناظر با آن در دنباله صوتی بدست می آید. نتایج حاصل از شبیه سازی ها نشان می دهد میانگین و واریانس اختلاف همترازی های زمانی تخمین زده شده توسط روش پیشنهادی در حدود ۰.۶۴s و ۰.۳۷ است، در عین حال که روش CTC به عنوان روش پایه به میانگین و واریانسی در حدود ۰.۸۷s و ۰.۴۷ رسیده است.

کلیدواژه ها

همترازی زمانی، الگوریتم CTC، MarbelNetVAD..

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.