Efficient Incorporation of PLSA and LDA Semantic Knowledge in Statistical Language Model Adaptation for Persian ASR Systems

  • سال انتشار: 1393
  • محل انتشار: مجله بین المللی کامپیوتر و فناوری اطلاعات، دوره: 2، شماره: 4
  • کد COI اختصاصی: JR_IJOCIT-2-4_003
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 427
دانلود فایل این مقاله

نویسندگان

Seyed Mahdi Hoseini

Computer Department of Shafagh University Tonekabon

Behrouz Minaei

Computer Department of Iran University of Science & Technology Tehran

چکیده

Language models (LMs) are important tools for especially ASR systems to improve their efficiency. Development of robust spoken language model ideally relies on the availability of large amounts of data preferably in the target domain and language. However, more often than not, speech developers need to cope with very little or no data, typically obtained from a different target domain. Language models are very brittle when moving from one domain to another. Language model adaptation is achieved by combining a generic LM with a topic-specific model that is more relevant to the target domain. We review a two major topic-based generative language model techniques designed to gain semantic knowledge of text. We show that applying a tf-idf-related per-word confidence metric, and using unigram rescaling rather than linear combinations with N-grams produces a more robust language model which has a significant higher accuracy on FARSDAT test set than a baseline N-gram model

کلیدواژه ها

Speech Recognition, Statistical Language Model Adaptation, Corpus,

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.