سنتز گفتار فارسی با استفاده از مدل مخفی مارکوف

سال انتشار: 1384
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,344

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICIKT02_049

تاریخ نمایه سازی: 12 دی 1386

چکیده مقاله:

مدل مخفی مارکوف یکی از مدلهای اماری مناسب برای مدل کردن دنباله پارامترهای گفتار می باشد که استفاده از آن در سیستم تبدیل متن به گفتار، موفقیت امیز بوده است. در این مقاله، برای پیاده سازی سیستم سنتز، از مدل مخفی مارکوف (HMM) برای مدل کردن پارامترهای مربوط به واحدهای گفتاری استفاده شده است. برای تبدیل ضرائب کپسترال به سیگنال صحبت ، از فیلتر MLSA استفاده نموده ایم. برای استخراج فرکانس گام، روش اتوکورلیشن مورد استفاده قرار گرفته است. برای تولید پارامترهای سنتز گفتار توسط HMMها از الگوریتمی استفاده نموده ایم که در آن برای در نظر گرفتن اطلاعات بافت، علاوه بر ویژگی های ضرائب کپستروم و فرکانس گام، مشتق اول و دوم انها نیز، مورد استفاده قرار گرفته اند. برای بدست آوردن مدل طول زمانی واجها، مشاهدات موجود از هر ترایفون را در پایگاه داده، طبق الگوریتم ویتربی با مدل HMM آن مقایسه نموده و دنباله حالات طی شده را بدست آورده و با میانگین گیری از تعداد دفعات حضور در هر حالت مدل HMM ترایفون، متوسط طول زمانی حضور در هر حالت را برای هر ترایفون بدست آورده ایم. زمانهای میانگین حاصل، مدلهای طول زمانی برای هر ترایفون را تشکیل می دهند. در هنگام سنتز با توجه به مدل طول هر حالت از مدل HMM هر ترایفون ، پارامترهای هر کدام ازحالتهای HMM، شامل بردار میانگین و بردار واریانس آن حالت تکرار و با استفاده از این پارامترها، دنباله ضرائب کپسترال و گام مورد نیاز برای سنتز گفتار بدست امده و توسط فیلتر MLSA به گفتار تبدیل شده اند. برای ارزیابی سیستم از تستس MOS استفاده شده است. امتیازات بدست آمده برای تست MOS در مورد سنتز با استفاده از مدلهای ترایفون برای تعیین طول زمانی ترایفون و گام، برای پارامترهای قابل فهم بودن، طبیعی بودن و خوشایند بودن برای جملات آموزشی به ترتیب 3/8، 3/9 و 3/5 می باشد.

کلیدواژه ها:

نویسندگان

محمدمهدی همایونپور

دکترای مهندسی برق ، آزمایشگاه سیستم های هوشمند صوتی و گفتاری، دانشکد

سیدمصطفی موسوی

کارشناسی ارشد مهندسی کامپیوتر، آزمایشگاه سیستم های هوشمند صوتی و گفت

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • س. س. آیت، طراحی و پیاده سازی سیستم تولید گفتار ...
  • T. Fukuda, K. Tokuda, T. Kobayashi, S. Imai, "An Adaptive ...
  • K. Tokuda, T. Kobayashi, S. Imai, "Adaptive Cepstral Analysis of ...
  • P. Boersma, "Accurate Short-Term Analysis of the Fundamental Frequency and ...
  • T. Masuko, K. Tokuda, T. Kobayashi, S. Imai, "Speech Synthesis ...
  • K. Tokuda, T. Kobayashi, S. Imai, "Speech Parameter Generation from ...
  • S. Lemmetty, Review of Speech Synthesis Technology, Thesis in Master ...
  • نمایش کامل مراجع