خلاصه سازی مفهومی متون فارسی مبتنی بر مدل mT۵
- سال انتشار: 1403
- محل انتشار: دومین کنگره بین المللی علوم، مهندسی و فن آوری های نو
- کد COI اختصاصی: SECONGRESS02_276
- زبان مقاله: فارسی
- تعداد مشاهده: 115
نویسندگان
دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی مالک اشتر، تهران، ایران
استادیار گروه هوش مصنوعی، دانشگاه صنعتی مالک اشتر، تهران، ایران
چکیده
خلاصه سازی خودکار متن از جمله وظایف اساسی در پردازش زبان طبیعی (NLP) است که هدف آن فشرده کردن اطلاعات اصلی یک مجموعه داده شده در یک خلاصه کوتاه است. با رشد تصاعدی داده های متنی، از جمله اسناد، مقالات و اخبار، خلاصه سازی خودکار اهمیت فزاینده ای پیدا کرده است. در این پژوهش، از مدل های mT۵-small، mT۵base و mT۵large برای وظیفه خلاصه سازی در متون خبر فارسی بهره گرفته و مجدد تنظیم دقیق شده اند. نتایج نشان می دهد که با افزایش تعداد پارامترها در مدل ها، دقت در وظیفه فوق الذکر افزایش می یابد. اما مشخص شد که تنظیم دقیق مدل ها بزرگ با پارامترهای زیاد در مجموعه داده های آموزشی استفاده شده، آن ها دچار بیش برازش می شوند، بنابراین برای حل این مشکل و بهبود بیشتر عملکرد مدل ها، اقدامات بیشتری برای جلوگیری از بیش برازش نیاز است. مدل های فوق پس از تنظیم دقیق بر روی مجموعه داده آموزشی ارزیابی مختلفی شدند و نتایج تجربی اثربخشی آن را در تولید خلاصه های با کیفیت بالا نمونه های برچسب گذاری شده نشان می دهد. و در نهایت تنظیم دقیق مدل mT۵large در معیار ROUGE-L به دقت ۵۱ درصد در تولید خلاصه مفهومی رسیده است.کلیدواژه ها
خلاصه سازی مفهومی، معماری رمزگذار-رمزگشا، NLP، مدل mT۵اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.