N-gram Adaptation Using Dirichlet Class Language Model Based on Part-of-Speech for Speech Recognition
- سال انتشار: 1392
- محل انتشار: بیست و یکمین کنفرانس مهندسی برق ایران
- کد COI اختصاصی: ICEE21_320
- زبان مقاله: انگلیسی
- تعداد مشاهده: 1183
نویسندگان
Computer Engineering Department, Iran University of Science and Technology, Tehran, Iran
Computer Engineering Department, Iran University of Science and Technology, Tehran, Iran
چکیده
Language model plays an important role in automatic speech recognition (ASR) systems. Performance of this model depends on its adaptation to the linguistic features.Accordingly, adaptation methods endeavour to apply syntactic and semantic characteristics of the language for languagemodeling. The previous adaptation methods such as family ofDirichlet class language model (DCLM) extract class of history words. These methods due to lake of syntactic information arenot suitable for high morphology languages such as Farsi. This work proposes an idea for using syntactic information such aspart-of-speech (POS) in DCLM for combining with an n-gram language model. In our proposed approach, word clustering isbased on POS of previous words and history words. The performance of language models are evaluated on BijanKhan corpus using a hidden Markov model based ASR system. Our experiments show that using POS information along with history words and class of history words mproves language model, and decreases the perplexity on our corpus. Exploiting POS information along with DCLM, the word error rate of the ASR system decreases by 1% in comparison to DCLM.کلیدواژه ها
speech recognition, language model adaptation, part-of-speech, perplexity, word error rateمقالات مرتبط جدید
- سیستم تشخیص نفوذ در محیط رایانش ابری با استفاده از یادگیری ویژ گی
- کاهش هزینه تعمیراتی ماشین های سنگین از طریق بهبود الگوریتم درخت تصمیم با الگوریتم های انتخاب ویژگی Information Gain ،Correlation و SVM
- پردازش کوانتومی تصاویر پزشکی و تشخیص لبه آن با استفاده از الگوریتم QHED
- بررسی و مقایسه روشهای تشخیص اکانت های جعلی در شبکه های اجتماعی
- مکان یابی و مقدار بهینه منابع تولید پراکنده به منظورکاهش تلفات و بهبود انحراف ولتاژ شبکه نامتعادل توزیع
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.