An End-to-End Deep Learning Model to Recognize Farsi Speech from Raw Input

  • سال انتشار: 1397
  • محل انتشار: چهارمین کنفرانس پردازش سیگنال و سیستم‌های هوشمند
  • کد COI اختصاصی: SPIS04_028
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 554
دانلود فایل این مقاله

نویسندگان

Sina Alisamir

Seyed Mohammad Ahadi

Sanaz Seyedin

چکیده

Automatic speech recognition systems usually solve the problem of recognizing speech by dividing the problem into different independent stages. First, they extract speech features and then use an acoustic model to reach the phoneme probabilities and from those probabilities, they reach sequence of recognized words. Recent advances in technology, especially in the area of deep neural networks in combination with speech recognition, shows that this division is not necessary and we can reach sequence of alphabet letters straight from the raw signal. In this work, we implemented and tested an endto- end convolutional neural network system with raw input for Farsi speech recognition and then compared its performance to another system that uses MFCC features. We show that using an end-to-end system with our configuration,which reaches series of phonemes from raw speech works better for Farsi speech as well as for English.

کلیدواژه ها

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.