تولید خودکار نوای گفتار به کمک مدل آمیختار عصبی-آماری با امکان انتخاب واحد در سنتز

سال انتشار: 1386
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 6

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_IJBM-1-3_007

تاریخ نمایه سازی: 20 اسفند 1404

چکیده مقاله:

در این مقاله با هدف ایجاد بهبود در عملکرد اولین ویرایش از سیستم تبدیل متن به گفتار طبیعی ارایه شده برای زبان فارسی، که در آن از یک شبکه عصبی بازگشتی برای تولید همزمان عوامل نوای گفتار (الگوی فرکانس گام، دیرش، انرژی و درنگ) و نیز سنتزکننده «مدل هارمونیک + نویز» با دادگان تک واحدی از دو واجی ها، برای تولید گفتار استفاده شده بود، چگونگی به کارگیری یک مدل آمیختار عصبی- آماری برای تولید نوا با ایجاد امکان انتخاب واحد در بخش سنتز گفتار بررسی شده است. در این راستا، در مدل آمیختار توسعه یافته برای تولید نوا، شبکه عصبی بازگشتی نقش پارامتری ساختن عوامل نوا (البته با تغییراتی در ساختار، نسبت به ویرایش اول سیستم) را داشته و به دنبال آن درخت های تصمیم گیری نوایی شکل گرفته و توصیف توزیع مقادیر نوا نیز به وسیله مدل مخلوط گوسی انجام شده است. بدین ترتیب امکان انتخاب قطعات گفتاری بهینه در یک سیستم سنتز مبتنی بر انتخاب واحد های هجایی و اتصال قطعات مناسب فراهم آمد. در ارزیابی نهایی عملکرد سیستم نیز با به کارگیری ملاک های ارایه شده در استاندارد MOS, ITU-T P.۸۵ معادل ۳.۶ محاسبه شد.

نویسندگان

منصور شیخان

استادیار گروه مخابرات، دانشکده فنی و مهندسی، واحد تهران جنوب دانشگاه آزاد اسلامی

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • بی جن خان محمود، بازنمایی واجی و آوایی زبان فارسی ...
  • سیدصالحی سیدعلی؛ بازشناخت گفتار پیوسته فارسی با استفاده از مدل ...
  • Sheikhan M., Tebyani M., Lotfizad M., Continuous speech recognition and ...
  • حافظی محمدمهدی، ثامتی حسین، منصوری نیلوفر، منتظری نیلوفر، بحرانی محمد، ...
  • اسلامی محرم؛ شناخت نوای گفتار زبان فارسی و کاربرد آن ...
  • شیخان منصور، نصیرزاده مجید، دفتریان علی؛ طراحی و پیاده سازی ...
  • شریفی آتشگاه مسعود؛ بررسی نوایی و آوایی واژه بست های ...
  • همایون پور محمدمهدی، نم نبات مجید؛ فارس بیان: گامی اساسی ...
  • کوچاری عباس، نم نبات مجید، رحیمی سعید، قاسمی زاده بهرنگ، ...
  • Sheikhan M., Tebyani M., Lotfizad M., Using symbolic and connectionist ...
  • Yamashita Y., Ishida T., Stochastic F۰ contour model based on ...
  • Buhmann J., Marten J.P., Macken L., Van Coile B., Intonation ...
  • Payo V.C., Mancebo D.E., A strategy to solve data scarcity ...
  • Aguero P.D., Bonafonte A., Consistent estimation of Fujisaki's intonation model ...
  • Ishi C.T., Ishiguro H., Hagita N., Automatic extraction of paralinguistic ...
  • Smith C.L., Modeling durational variability in eading aloud a connected ...
  • Eichner M., Wolff M., Hoffmann R., Improved duration control for ...
  • Werner S, Wolff M, Eichner M, Hoffmann R; Modeling pronunciation ...
  • Ariu M., Masuko T., Tanaka S., Kawamura A., Speech recognition ...
  • Sagisaka Y., Sato H.; Accentuation rules in Japanese TTS conversion; ...
  • Low P.H., Vaseghi S., Application of microprosody models in TTS ...
  • Hifny Y., Rashwan M., Duration modeling for Arabic TTS synthesis; ...
  • El-Imam Y.A., Synthesis of the intonation of neutrally spoken modern ...
  • Frid J., Prediction of intonation patterns of accented words in ...
  • Lobanov B., Tsirulnik L., Zhadinets D., Piorkovska B., Rafalko J., ...
  • Kaiki N., Mimura K., Sagisaka Y., Statistical modeling of segmental ...
  • Fukuda T., Komori Y., Aso T., Ohora Y., A study ...
  • Fujio S., Sagisaka Y., Higuchi N.Z., Stochastic modeling of pause ...
  • Taylor P., Black A.W., Assigning phrase breaks from part-of-speech sequences; ...
  • Bulyko I., Ostendorf M., Joint prosody prediction and unit selection ...
  • Adell J., Agüero P.D., Bonafonte A., Database pruning for unsupervised ...
  • Sakai S., Shu H., A probabilistic approach to unit selection ...
  • Scordilis M.S., Gowdy J.N., Neural network-based generation of fundamental frequency ...
  • Taylor P., Using neural networks to locate pitch accents; Proceedings ...
  • Riedi M., A neural-network-based model of segmental duration for speech ...
  • Callan D., Tajima K., Callan A., Akahane-Yamada R., Masaki S., ...
  • Teixeira J.P., Freitas D.; Use of phoneme dedicated artificial neural ...
  • Espinosa H.P., Reyes Garcia C.A., Genetic algorithms for the selection ...
  • Wutiwiwatchai C., Furui S., Thai speech processing technology: a review; ...
  • Chen K., Hasegawa-Johnson M., Cohen A., An automatic prosody labeling ...
  • Ma X., Zhang W., Zhu W., Shi Q., Jin L., ...
  • Sun X., Applebaum T.H., Intonational phrase break prediction using decision ...
  • Jiang D., Shi Q., Meng F., Shuang Z., Ma X., ...
  • Bahl L.R., de Souza P.V., Gopalakrishnan P.S., Nahamoo D., Decision ...
  • Sheikhan M.; RNN-based prosodic information synthesizer for Farsi TTS; Second ...
  • Chen S.H., Wang Y.R., Vector quantization of pitch information in ...
  • Childers D.G., Time modification of speech, theory: speech analysis, segmentation ...
  • فرخی علی، قائم مقامی شاهرخ، طبیانی محمود، شیخان منصور؛ تقطیع ...
  • Ghahramani Z., Jordan M.I., Supervised learning from incomplete data via ...
  • Weiss B., Prosodic elements of a political speech and its ...
  • Moulines E., Emerard F., Larreur D., Le Saint Milon J.L., ...
  • Bulut M., Narayanan S.S., Syrdal A.K., Expressive speech synthesis using ...
  • Erro D., Moreno A., A pitch-asynchronous simple method for speech ...
  • Toda T., Kawai H., Tsuzaki M., Optimizing sub-cost functions for ...
  • Nukaga N., Komoshida R., Nagamatsu K., Kitahara Y., Scalable implementation ...
  • Storm V., Clark R., King S., Expressive prosody for unit-selection ...
  • Conkie A., Syrdal A.K., Expanding phonetic coverage in unit selection ...
  • Mohammadi M., Sheikhan M., TTS in broadcasting; Proc. International Conference ...
  • O’Brien D., Monaghan A., Concatenative synthesis based on a harmonic ...
  • Zeljkovic I., Stylianou Y., Single complex sinusoid and ARHE model ...
  • Stylianou Y., Removing linear phase mismatches in concatenative speech synthesis; ...
  • Quatieri T.F., McAulay R.J., Shape invariant timescale and pitch modification ...
  • Dutiot T., Stylianou Y., Text-to-speech synthesis, In: Oxford Handbook of ...
  • O’Brien D., Monaghan A., Shape invariant time-scale modification of speech ...
  • ITU-T Recommendation P. ۸۵: A method for subjective performance assessment ...
  • Alvarez Y.V., Huckvale M., The reliability of the ITUT P. ...
  • نمایش کامل مراجع