سنتز گفتار فارسی با استفاده از مدل مخفی مارکوف

محمدمهدی همایونپور; سیدمصطفی موسوی

سنتز گفتار فارسی با استفاده از مدل مخفی مارکوف

محل انتشار: دومین کنفرانس بین المللی فناوری اطلاعات و دانش

سال انتشار: 1384

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 3,510

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/44014

شناسه ملی سند علمی:

ICIKT02_049

تاریخ نمایه سازی: 12 دی 1386

چکیده مقاله:

مدل مخفی مارکوف یکی از مدلهای اماری مناسب برای مدل کردن دنباله پارامترهای گفتار می باشد که استفاده از آن در سیستم تبدیل متن به گفتار، موفقیت امیز بوده است. در این مقاله، برای پیاده سازی سیستم سنتز، از مدل مخفی مارکوف (HMM) برای مدل کردن پارامترهای مربوط به واحدهای گفتاری استفاده شده است. برای تبدیل ضرائب کپسترال به سیگنال صحبت ، از فیلتر MLSA استفاده نموده ایم. برای استخراج فرکانس گام، روش اتوکورلیشن مورد استفاده قرار گرفته است. برای تولید پارامترهای سنتز گفتار توسط HMMها از الگوریتمی استفاده نموده ایم که در آن برای در نظر گرفتن اطلاعات بافت، علاوه بر ویژگی های ضرائب کپستروم و فرکانس گام، مشتق اول و دوم انها نیز، مورد استفاده قرار گرفته اند. برای بدست آوردن مدل طول زمانی واجها، مشاهدات موجود از هر ترایفون را در پایگاه داده، طبق الگوریتم ویتربی با مدل HMM آن مقایسه نموده و دنباله حالات طی شده را بدست آورده و با میانگین گیری از تعداد دفعات حضور در هر حالت مدل HMM ترایفون، متوسط طول زمانی حضور در هر حالت را برای هر ترایفون بدست آورده ایم. زمانهای میانگین حاصل، مدلهای طول زمانی برای هر ترایفون را تشکیل می دهند. در هنگام سنتز با توجه به مدل طول هر حالت از مدل HMM هر ترایفون ، پارامترهای هر کدام ازحالتهای HMM، شامل بردار میانگین و بردار واریانس آن حالت تکرار و با استفاده از این پارامترها، دنباله ضرائب کپسترال و گام مورد نیاز برای سنتز گفتار بدست امده و توسط فیلتر MLSA به گفتار تبدیل شده اند. برای ارزیابی سیستم از تستس MOS استفاده شده است. امتیازات بدست آمده برای تست MOS در مورد سنتز با استفاده از مدلهای ترایفون برای تعیین طول زمانی ترایفون و گام، برای پارامترهای قابل فهم بودن، طبیعی بودن و خوشایند بودن برای جملات آموزشی به ترتیب 3/8، 3/9 و 3/5 می باشد.

کلیدواژه ها:

تبدل متن به گفتار ، سنتز گفتار ، مدل مخفی مارکوف ، فیلتر MLSA

نویسندگان

محمدمهدی همایونپور

دکترای مهندسی برق ، آزمایشگاه سیستم های هوشمند صوتی و گفتاری، دانشکد

سیدمصطفی موسوی

کارشناسی ارشد مهندسی کامپیوتر، آزمایشگاه سیستم های هوشمند صوتی و گفت

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

س. س. آیت، طراحی و پیاده سازی سیستم تولید گفتار ...
T. Fukuda, K. Tokuda, T. Kobayashi, S. Imai, "An Adaptive ...
K. Tokuda, T. Kobayashi, S. Imai, "Adaptive Cepstral Analysis of ...
P. Boersma, "Accurate Short-Term Analysis of the Fundamental Frequency and ...
T. Masuko, K. Tokuda, T. Kobayashi, S. Imai, "Speech Synthesis ...
K. Tokuda, T. Kobayashi, S. Imai, "Speech Parameter Generation from ...
S. Lemmetty, Review of Speech Synthesis Technology, Thesis in Master ...

نمایش کامل مراجع