بهبود عملکرد ساده سازی بدون نظارت جملات با استفاده از مدل های زبانی پوشیده
فایل این در 127 صفحه با فرمت PDF قابل دریافت می باشد
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
چکیده :
ساده سازی متن یکی از قدیمی ترین مسائل بازنویسی نوشتار بوده که بسیار مورد مطالعه قرار گرفته است. هدف از ساده سازی یک متن، اعمال تغییرات و بازنویسی آن به منظور خوانایی روان تر و ایجاد سهولت در فهم آن است. چنین عباراتی می توانند برای ارائه ی مفاهیم مورد نظر به افراد کم سواد یا کودکان مفید باشند و همچنین، خروجی مدل های ساده سازی جملات در سطوح تخصصی تر مثل خلاصه سازی متن و ترجمه ی ماشینی کاربرد خواهد داشت. معمولا تعدادی از عمل های مرسوم از جمله جایگزینی، حذف، مرتب سازی و تقسیم جمله در این مسئله مورد استفاده قرار می گیرند. پژوهش های سنتی انجام شده در زمینه ی ساده سازی متن، اغلب محدود به عمل های سطح جمله می شوند. به کارگیری این عمل ها برای ساخت جملات ساده و قابل درک، مخصوصا با در نظر گرفتن قواعد دستوری و حفظ مفهوم بنیادی اولیه، بسیار چالش برانگیز بوده و در حال حاضر جای بحث و مکاشفه دارد. تعداد کثیری از پژوهش های انجام شده، مدل های ساده سازی خود را بر پایه ی الگوی داده محور که چارچوب فکری غالب در این مسئله است، توسعه داده اند. طبق این الگو، تمرکز هر مدل روی یادگیری تکنیک های ساده سازی از زوج جمله های پیچیده و ساده شده است. مدل سازی زبانی پوشیده، مسئله ای مشابه پر کردن جای خالی است که در آن یک کلمه در جمله پوشیده می شود؛ سپس وظیفه ی مدل زبانی، پیش بینی مناسب ترین کلمه برای جای خالی، با استفاده از کلمات اطراف آن است. تکنیک ارائه شده در این پژوهش، مدل های آموزش دیده ی برت (BERT) را که نوعی مدل زبانی پوشیده ی مبتنی بر معماری مبدل (Transformer) هستند، با یک مدل ساده سازی جملات بدون نظارت مبتنی بر ویرایش ادغام می کند. سپس نشان داده می شود که پس از تنظیم دقیق مدل برت روی جملات ساده، می توان نتایج ساده سازی را روی پیکره های TurkCorpus و ASSET به ترتیب تا 0.82 و 2.26 واحد SARI بهبود بخشید و حتی از دو روش با نظارت فعلی، عملکرد بهتری داشت. در نهایت، چارچوبی معرفی می شود که طی آن بتوان مقدار دلخواهی از متون بدون برچسب را تهیه کرده و برای تنظیم دقیق مدل برت فیلتر کرد تا این بهبود، بدون نیاز به داده های برچسب دار به دست آید. این عمل پیش پردازشی، همچنین باعث حذف نمونه های آموزشی اضافی می شود که فرآیند تنظیم دقیق مدل زبانی پوشیده را سرعت می بخشد.
کلیدواژه ها:
ساده سازی بدون نظارت جملات ، مدل های زبانی پوشیده ، تنظیم دقیق مدل زبانی ، مدل برت ، پردازش زبان های طبیعی
نویسندگان
محمدامین رشید
دانشجو
حسین امیرخانی
عضو هیئت علمی دانشگاه
مراجع و منابع این :
لیست زیر مراجع و منابع استفاده شده در این را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود لینک شده اند :