شناسایی گوینده مستقل از متن با استفاده از شبکه ی عصبی مبتنی بر ترنسفورمر
سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 172
فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ELEMECHCONF08_031
تاریخ نمایه سازی: 19 تیر 1403
چکیده مقاله:
سیگنال گفتار یک وسیله ارتباطی است که همیشه اطلاعات غنی و مفیدی مانند لهجه، جنسیت، احساسات و سایر ویژگی های منحصربه فرد یک گوینده را حمل می کند. شناسایی گوینده فرایندی برای استخراج هویت یک گوینده با استفاده از ماشین باتوجه به ویژگی های آکوستیکی گفتار داده شده است. سیستم های شناسایی گوینده به دو دسته مستقل از متن و وابسته به متن تقسیم بندی می شوند که در این مقاله ما یک سیستم شناسایی گوینده مستقل از متن با استفاده از ترنسفورمر swin پیشنهاد کردیم که توانست به نتایج مطلوبی بر روی مجموعه داده librispeech دست پیدا کند سیستم پیشنهادی ما توانست به دقت ۸۶ /۹۹ درصد بر روی زیرمجموعه train-clean-۳۶۰ از مجموعه داده که دارای ۹۲۱ گوینده است برسد.
کلیدواژه ها:
نویسندگان
علی اعظم
۱- دانشجوی کارشناسی ارشد دانشگاه صداوسیمای جمهوری اسلامی ایران، تهران، ایران
معصومه شفیعیان
۲- استادیار گروه مهندسی صدا، دانشگاه صداوسیمای جمهوری اسلامی ایران، تهران، ایران