شناسایی گوینده مستقل از متن با استفاده از شبکه ی عصبی مبتنی بر ترنسفورمر

علی اعظم; معصومه شفیعیان

شناسایی گوینده مستقل از متن با استفاده از شبکه ی عصبی مبتنی بر ترنسفورمر

محل انتشار: هشتمین کنفرانس ملی پژوهشهای کاربردی در مهندسی برق، مکانیک و مکاترونیک

سال انتشار: 1403

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 183

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2024066

شناسه ملی سند علمی:

ELEMECHCONF08_031

تاریخ نمایه سازی: 19 تیر 1403

چکیده مقاله:

سیگنال گفتار یک وسیله ارتباطی است که همیشه اطلاعات غنی و مفیدی مانند لهجه، جنسیت، احساسات و سایر ویژگی های منحصربه فرد یک گوینده را حمل می کند. شناسایی گوینده فرایندی برای استخراج هویت یک گوینده با استفاده از ماشین باتوجه به ویژگی های آکوستیکی گفتار داده شده است. سیستم های شناسایی گوینده به دو دسته مستقل از متن و وابسته به متن تقسیم بندی می شوند که در این مقاله ما یک سیستم شناسایی گوینده مستقل از متن با استفاده از ترنسفورمر swin پیشنهاد کردیم که توانست به نتایج مطلوبی بر روی مجموعه داده librispeech دست پیدا کند سیستم پیشنهادی ما توانست به دقت ۸۶ /۹۹ درصد بر روی زیرمجموعه train-clean-۳۶۰ از مجموعه داده که دارای ۹۲۱ گوینده است برسد.

کلیدواژه ها:

کلمات کلیدی: شناسایی گوینده ، مستقل از متن ، ترنسفورمر swin

نویسندگان

علی اعظم

۱- دانشجوی کارشناسی ارشد دانشگاه صداوسیمای جمهوری اسلامی ایران، تهران، ایران

معصومه شفیعیان

۲- استادیار گروه مهندسی صدا، دانشگاه صداوسیمای جمهوری اسلامی ایران، تهران، ایران