مروری نظام مند بر معیارهای ارزیابی در پردازش زبان طبیعی از رویکردهای واژگانی تا ارزیابی مبتنی بر مدل های زبانی بزرگ

محمد حسین مهاجر ارومیه

مروری نظام مند بر معیارهای ارزیابی در پردازش زبان طبیعی از رویکردهای واژگانی تا ارزیابی مبتنی بر مدل های زبانی بزرگ

محل انتشار: هشتمین کنفرانس بین المللی هوش مصنوعی و چشم انداز آینده آن در علوم مهندسی برق ، کامپیوتر ، مکانیک و مخابرات

سال انتشار: 1404

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 27

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2504154

شناسه ملی سند علمی:

ICCPM08_048

تاریخ نمایه سازی: 13 بهمن 1404

چکیده مقاله:

این پژوهش با هدف مرور و تحلیل جامع معیارهای ارزیابی در پردازش زبان طبیعی طی بازه زمانی ۲۰۱۰ تا ۲۰۲۵ انجام شده است. مساله اصلی شناسایی نقاط ضعف و قوت شاخص های سنتی مانند معیارهای واژگانی و مبتنی بر تعبیه سازی، در کنار بررسی رویکردهای جدید مدل محور و مبتنی بر مدل های زبانی بزرگ برای سنجش کیفیت خروجی های متنی است. روش تحقیق به صورت مطالعه مروری نظام مند تدوین شد که شامل انتخاب منابع علمی معتبر از پایگاه های بین المللی استخراج، دسته بندی معیارها، تحلیل کیفی کارکرد هر معیار و مقایسه عملکرد آنها در سناریوهای مختلف بود. برای این منظور، طبقه بندی پنج گانه ای شامل معیارهای واژگانی، معیارهای مبتنی بر تعبیه سازی، ارزیابی مبتنی بر مدل زبانی، شاخص های مقاوم سازی و معیارهای انصاف و بی طرفی ارائه گردید. یافته ها نشان دادند که معیارهای سنتی هنوز برای وظایف ساختاری ساده مناسب اند اما در سنجش ابعاد معنایی دچار محدودیت هستند. در مقابل، رویکردهای مبتنی بر مدل های زبانی و روش های استنباط متنی توانایی بیشتری در تحلیل معنایی، تشخیص استدلال و ارزیابی زمینه محور دارند هرچند هنوز چالش هایی مانند حساسیت به داده های آموزشی، ناپایداری در وظایف بین زبانی و مخاطرات بی طرفی باقی است. نتایج نهایی حاکی از آن است که ترکیب رویکردهای آماری و مدل محور همراه با چارچوب های استاندارد مقاوم سازی می تواند بنیانی پایدار برای سیستم های ارزیابی نسل آینده در پردازش زبان طبیعی فراهم سازد و مسیر توسعه هوشمندانه این حوزه را هموار نماید.

کلیدواژه ها:

پردازش زبان طبیعی ، معیارهای ارزیابی ، مدل های زبانی بزرگ ، آزمون پایداری عملکرد ، Robustness ، Bias & Fairness ، Evaluation Metrics ، Large Language Models (LLM) ، Robustness Testing

نویسندگان

محمد حسین مهاجر ارومیه

گروه کامپیوتر و فناوری اطلاعات، واحد اصفهان (خوراسگان)، دانشگاه آزاد اسلامی، اصفهان، ایران