بهبود بازشناسی گفتار فارسی و تشخیص احساسات دانش آموزان با استفاده از فاینتیون مدل Faster-Whisper

  • سال انتشار: 1404
  • محل انتشار: ماهنامه پایاشهر، دوره: 7، شماره: 79
  • کد COI اختصاصی: JR_PAYA-7-79_127
  • زبان مقاله: فارسی
  • تعداد مشاهده: 49
دانلود فایل این مقاله

نویسندگان

مریم تحیری

۱- دانشجوی ارشد هوش مصنوعی دانشگاه ابرار

محمد ابراهیم شیری احمدآبادی

۲- عضو هیئت علمی دانشگاه صنعتی امیرکبیر

چکیده

سیستم های بازشناسی خودکار گفتار (ASR) فارسی در محیط های آموزشی با چالش های متعددی از جمله تنوع لهجه ها، نویز محیطی و کمبود داده های آموزشی مواجه اند. بیشتر راه حل های موجود به GPU و اتصال اینترنت نیاز دارند که استفاده در مدارس را دشوار می سازد. این پژوهش سیستمی آفلاین برای بازشناسی گفتار فارسی همراه با تحلیل احساسات دانش آموزان توسعه می دهد. مدل Whisper-Small با ۱۲۴۷ نمونه صوتی سفارشی و ۲۵,۰۰۰ نمونه از Common Voice فارسی فاین تیون شد و سپس با CTranslate۲ برای اجرای CPU بهینه گردید. برای تحلیل احساسات، ParsBERT با ۳۲۵۰ جمله در سه کلاس (مثبت، منفی، خنثی) آموزش یافت. نتایج نشان داد WER از ۲۴.۳۷% به ۶.۸۹% (بهبود ۷۱.۷%) و CER از ۸.۹۱% به ۲.۰۸% (بهبود ۷۶.۷%) کاهش یافت. تحلیل احساسات دقت ۷۴.۰% و F۱-Score معادل ۰.۷۴۵ حاصل کرد. آزمایش میدانی در کلاس WER=۸.۷% نشان داد. همچنین رابطه خطی معنادار (ضریب ۰.۸۲) بین خطاهای ASR و کاهش دقت احساسات شناسایی شد. سیستم با حجم ۱۲۵ مگابایت، زمان ارزیابی احساسات را ۶۸% کاهش و دقت شناسایی دانش آموزان نیازمند توجه را ۲۵% افزایش داد.

کلیدواژه ها

بازشناسی گفتار فارسی، تحلیل احساسات، Faster-Whisper، فاین تیونینگ، فناوری آموزشی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.