شناسایی صدای گوینده در محیط شامل چند گوینده به کمک روش خوشه بندی ماشین بردار پشتیبان (SVM)

یاسر, روئین تن; مهدی, تقی زاده; محمدامین, پیربنیه

شناسایی صدای گوینده در محیط شامل چند گوینده به کمک روش خوشه بندی ماشین بردار پشتیبان (SVM)

عنوان مقاله: شناسایی صدای گوینده در محیط شامل چند گوینده به کمک روش خوشه بندی ماشین بردار پشتیبان (SVM)
شناسه ملی مقاله: ELCM04_048
منتشر شده در چهارمین کنفرانس بین المللی مهندسی برق، کامپیوتر و مکانیک در سال 1400

مشخصات نویسندگان مقاله:

یاسر روئین تن - دانشجوی کارشناسی ارشد - مهندسی برق ، دانشکده فنی و مهندسی ، واحد کازرون ، دانشگاه آزاد اسلامی ، کازرون ، ایران
مهدی تقی زاده - استادیار گروه برق و کامپیوتر ، دانشکده فنی و مهندسی ، واحد کازرون ، دانشگاه آزاد اسلامی ، کازرون ، ایران
محمدامین پیربنیه - استادیار گروه برق و کامپیوتر ، دانشکده فنی و مهندسی ، واحد کازرون ، دانشگاه آزاد اسلامی ، کازرون ، ایران

خلاصه مقاله:

شناسایی گوینده یکی از مباحث مطرح در بحث پردازش گفتار می باشد. شناسایی گوینده عبارت است از فرآیندی که طی آن با استفاده از سیگنال صحبت تشخیص دهیم چه کسی چه موقع واقعا صحبت می کند. هدف طراحی سیستمی است که بتواند تغییر در گوینده را مشخص نماید و گفتار هر گوینده را برای سیستم برچسب گذاری نماید. یعنی مشخص نماید که کدام گوینده ، در چه بازه هایی صحبت کرده است. امروزه این عمل با یک عنوان جدید که هر دو فرآیند جداسازی و برچسب گذاری را در بر می گیرد بنام Speaker Diarization مشهور گشته است. هدف از بخش بندی تقسیم سیگنال گفتاری به بخش هایی است که تنها شامل گفتار یک گوینده هستند و هدف از خوشه بندی نیز شناسایی بخش های گفتاری مربوط به یک گوینده و اختصاص یک برچسب واحد به آنهاست. هدف از انجام این مقاله طراحی و پیاده سازی یک سیستم بخش بندی و خوشه بندی گوینده با استفاده از الگوریتم های جدید و همچنین بهبود نتایج این الگوریتم ها برای این موضوع می باشد. این سیستم باید بطور صحیح نقاط تغییر گوینده را بدون دانستن اطالعات قبلی از گوینده تشخیص داده و در نهایت تمام قسمت های صوتی مربوط به یک گوینده را در یک خوشه قرار می دهد. در این مقاله، سیستم تشخیص گوینده، از سه مرحله اصلی تشکیل شده است. درمرحله اول قسمتهای غیر گفتاری، از بخش های گفتاری فایل صوتی حذف می شوند، تا دقت و سرعت عملیات سیستم در مراحل بعدی افزایش پیدا کند. سپس فایل گفتاری به بخش هایی همگن که در آن فقط گفتار یک گوینده وجود دارد، تقسیم می شود. در مرحله سوم با استفاده از خوشه بندی مناسب، بخش های گفتاری مرحله قبل، که متعلق به یک گوینده هستند، در یک خوشه جای می گیرند. جهت پیاده سازی سیستم از چهار نوع بردار ویژگی TDC, root-MFCC, MFCC وroot-TDC و سه نوع پایگاه داده استفاده شده است و دقت مرحله بخش بندی %۸۰ بوده است و دقت مرحله خوشه بندی نیز %۵۹ با استفاده از ماشین بردار پشتیبان بدست آمده است.

کلمات کلیدی:

بخش بندی آماری گوینده، بخش بندی گویندگان، تشخیص بخشهای صوتی، خوشه بندی گویندگان

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1264717/