بهبود بازشناسی گفتار فارسی و تشخیص احساسات دانش آموزان با استفاده از فاینتیون مدل Faster-Whisper

سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 48

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_PAYA-7-79_127

تاریخ نمایه سازی: 26 مهر 1404

چکیده مقاله:

سیستم های بازشناسی خودکار گفتار (ASR) فارسی در محیط های آموزشی با چالش های متعددی از جمله تنوع لهجه ها، نویز محیطی و کمبود داده های آموزشی مواجه اند. بیشتر راه حل های موجود به GPU و اتصال اینترنت نیاز دارند که استفاده در مدارس را دشوار می سازد. این پژوهش سیستمی آفلاین برای بازشناسی گفتار فارسی همراه با تحلیل احساسات دانش آموزان توسعه می دهد. مدل Whisper-Small با ۱۲۴۷ نمونه صوتی سفارشی و ۲۵,۰۰۰ نمونه از Common Voice فارسی فاین تیون شد و سپس با CTranslate۲ برای اجرای CPU بهینه گردید. برای تحلیل احساسات، ParsBERT با ۳۲۵۰ جمله در سه کلاس (مثبت، منفی، خنثی) آموزش یافت. نتایج نشان داد WER از ۲۴.۳۷% به ۶.۸۹% (بهبود ۷۱.۷%) و CER از ۸.۹۱% به ۲.۰۸% (بهبود ۷۶.۷%) کاهش یافت. تحلیل احساسات دقت ۷۴.۰% و F۱-Score معادل ۰.۷۴۵ حاصل کرد. آزمایش میدانی در کلاس WER=۸.۷% نشان داد. همچنین رابطه خطی معنادار (ضریب ۰.۸۲) بین خطاهای ASR و کاهش دقت احساسات شناسایی شد. سیستم با حجم ۱۲۵ مگابایت، زمان ارزیابی احساسات را ۶۸% کاهش و دقت شناسایی دانش آموزان نیازمند توجه را ۲۵% افزایش داد.

نویسندگان

مریم تحیری

۱- دانشجوی ارشد هوش مصنوعی دانشگاه ابرار

محمد ابراهیم شیری احمدآبادی

۲- عضو هیئت علمی دانشگاه صنعتی امیرکبیر