یک سیستم چند مرحله ای برای شاخص گذاری گوینده بصورت مستقل از کانال

طاهره امامی آزادی; جهانشاه کبودیان

یک سیستم چند مرحله ای برای شاخص گذاری گوینده بصورت مستقل از کانال

محل انتشار: پانزدهمین کنفرانس کامپیوتر سالانه انجمن کامپیوتر ایران

سال انتشار: 1388

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,117

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/79179

شناسه ملی سند علمی:

CSICC15_247

تاریخ نمایه سازی: 26 مهر 1388

چکیده مقاله:

در این مقاله، یک سیستم چند مرحلهای برای شاخص گذاری گوینده، با قابلیت تخمین خودکار تعداد گوینده ها، به منظور استفاده درسیستمهای بازشناسی گوینده تلفنی و اینترنتی، ارائه میشود. درسیستم مذکور، در نخستین مرحله، پس از حذف سکوت از سیگنال صوتی، مرزهای تغییر گوینده با استفاده از معیار GLR تعیین میشود. در ادامه، قطعات کنار هم و متوالی، بر اساس شباهتی که با هم دارند،تلفیق میشوند. در مرحله بعد، با استفاده از خوشه بندی سلسله مراتبی، قطعات متعلق به هر گوینده در یک خوشه قرار میگیرند. این مراحل با اعمال مدل GMM برای هریک از خوشه ها و تقطیع مجدد سیگنال گفتار با الگوریتم ویتربی خاتمه مییابد. از سیستم ارائه شده برای تقطیع و شاخص گذاری گوینده در گفتار تلفنی استفاده به عمل آمد و خطای شاخص گذاری با معیار NIST یا همان DER به 7/9% رسید. پیاده سازیهای انجام شده روی چند مجموعه مختلف از دادگان، نشانگر مقاوم بودن سیستم ارائه شده نسبت به نوع کانال، نویز محیط وروشهای فشرده سازی با نرخ بیت متفاوت است.

کلیدواژه ها:

شاخص گذاری گوینده ، معیار بیز ، تقطیع وخوشه بندی گوینده ، مدل مخلوط گوسی

نویسندگان

طاهره امامی آزادی

پژوهشکده پردازش هوشمند علائم، تهران.

جهانشاه کبودیان

پژوهشکده پردازش هوشمند علائم، تهران.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Barras, C., Zhu, X., Meignier, S., "Multistage Speaker Diarization of ...
Reynolds, D., Kenny, P., Castaldo, F., "A Study of New ...
http: _ _ gov_speech /tests_tt_. ...
_ _ _ _ "Tfarsdat - the Telephone Farsi Speech ...
Delacourt, P., Wellekens, C.J., "DISTBIC: A speaker- based segmentation for ...
Tranter, S. E., Reynolds, D. A., "An Overview of Automatic ...
Chen, S. S., Gop alakrishnam, ...
DARPA Broadcast News Transcription and Understanding Workshop, pp. 127-132, Lansdowne, ...
The 2009 (RT-09) Rich Transcription Meeting Recognition Evaluation Plan, RT-06S ...

نمایش کامل مراجع