طراحی مدل پردازش زبان طبیعی برای خالصه سازی خودکار متون فارسی با استفاده از معماریهای Transformer
سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 50
فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
UTCONF09_113
تاریخ نمایه سازی: 20 تیر 1404
چکیده مقاله:
با گسترش سریع داده های متنی در فضای وب، نیاز به سامانه های خالصه سازی خودکار بیش از پیش احساس می شود، به ویژه برای زبان فارسی که ساختار زبانی پیچیده ای دارد. اغلب مدل های موجود خالصه سازی برای زبان های پرمنبع مانند انگلیسی توسعه یافته اند و در زبان فارسی به دلیل ساختار نحوی آزاد و صرف افعال پیچیده، عملکرد مطلوبی ندارند. همچنین، استفاده از معماری Transformer در خالصه سازی انتزاعی فارسی کمتر مورد توجه قرار گرفته است. هدف اصلی این پژوهش، ارائه و ارزیابی مدل خالصه سازی خودکار متون فارسی بر پایه ی معماری Transformer، با تمرکز بر تولید خالصه های انتزاعی روان و معنادار است. مدل پیشنهادی با بهره گیری از نسخه ی پیش آموزش دیداری mT۵ و مجموعه داده ی PersianSum، پس از مراحل پیش پردازش، نرمال سازی، توکن سازی و حذف توقف واژه ها آموزش داده شده و ارزیابی با استفاده از معیارهای ROUGE، BLEU و METEOR به کار رفته نتایج نشان داد که مدل پیشنهادی در مقایسه با مدل های پایه ی مانند mBERT، ParsBERT و PEGASUS-multi عملکرد بهتری دارد، با بالاترین امتیاز ROUGE-۱ برابر با ۳۴.۶ و METEOR برابر با ۳۰.۱ به دست آمده. مدل پیشنهادی توانایی برتری در خالصه سازی انتزاعی متون فارسی دارد و می تواند خالصه هایی دقیق، روان و بدون افزونی تولید کرده و نتایج دقیق تری نسبت به تحقیقات قبلی داشته باشد. تنظیم دقیق مدل های Transformer برای زبان فارسی می تواند گامی موثر در توسعه ی ابزارهای NLP باشد و راه را برای کاربردهای وسیعتر هموار سازد.
کلیدواژه ها:
نویسندگان
محمد حسین رمضان زاده یزدی
دانش آموخته کارشناسی ارشد گرایش هوش مصنوعی، گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه بین المللی امام رضا (ع)، ایران