شناسایی گوینده مستقل از متن با استفاده از شبکه ی عصبی مبتنی بر ترنسفورمر

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 172

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ELEMECHCONF08_031

تاریخ نمایه سازی: 19 تیر 1403

چکیده مقاله:

سیگنال گفتار یک وسیله ارتباطی است که همیشه اطلاعات غنی و مفیدی مانند لهجه، جنسیت، احساسات و سایر ویژگی های منحصربه فرد یک گوینده را حمل می کند. شناسایی گوینده فرایندی برای استخراج هویت یک گوینده با استفاده از ماشین باتوجه به ویژگی های آکوستیکی گفتار داده شده است. سیستم های شناسایی گوینده به دو دسته مستقل از متن و وابسته به متن تقسیم بندی می شوند که در این مقاله ما یک سیستم شناسایی گوینده مستقل از متن با استفاده از ترنسفورمر swin پیشنهاد کردیم که توانست به نتایج مطلوبی بر روی مجموعه داده librispeech دست پیدا کند سیستم پیشنهادی ما توانست به دقت ۸۶ /۹۹ درصد بر روی زیرمجموعه train-clean-۳۶۰ از مجموعه داده که دارای ۹۲۱ گوینده است برسد.

کلیدواژه ها:

کلمات کلیدی: شناسایی گوینده ، مستقل از متن ، ترنسفورمر swin

نویسندگان

علی اعظم

۱- دانشجوی کارشناسی ارشد دانشگاه صداوسیمای جمهوری اسلامی ایران، تهران، ایران

معصومه شفیعیان

۲- استادیار گروه مهندسی صدا، دانشگاه صداوسیمای جمهوری اسلامی ایران، تهران، ایران