مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان انگلیسی

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 444

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICTBC04_046

تاریخ نمایه سازی: 5 شهریور 1400

چکیده مقاله:

امروزه با گسترش استفاده از رایانه و اینترنت، حجم متون و پیچیدگی ارتباطات آنها به قدری افزایش یافته است کهدیگر استنتاج در آنها به شکل سنتی و توسط افراد، ناممکن شده است. این مسئله به قدری اهمیت پیدا کرده است که درزیرمجموعه ای از هوش مصنوعی به نام پردازش زبان طبیعی، وظیفه ای مهم به نام استنتاج زبان طبیعی معرفی شده است.وظیفه ی استنتاج زبان طبیعی به دسته بندی نوع ارتباط یک عبارت با نام «مقدم» با عبارت دیگری با نام «تالی» در سهکلاس «دلالت»، «تضاد» و «خنثی» می پردازد. پژوهشگران در بسیاری از زبان های دنیا، برای آموزش مدل های استنتاجمجموعه داده های مهمی تهیه و تنظیم کرده اند. با توجه به اینکه اولین و بزرگترین مجموعه داده های استنتاج زبان طبیعیدر زبان پرمنبع انگلیسی توسعه داده شده اند، در این پژوهش، ما ابتدا این مجموعه داده ها را از نظر ویژگی های ساختاری،روش جمع آوری، تعداد نمونه ها، موضوعات (ژانر) و کلاهایشان را مرور کرده ایم. سپس نقاط ضعف و قوت آنها را با دقتبررسی کرده و سیر تکاملشان را تجزیه و تحلیل کرده ایم. نتایج این پژوهش سه مشکل اساسی تکژانر بودن، وجود مصنوعاتحاشیه نویسی در نمونه ها و عدم وجود هر سه کلاس استنتاج را در مجموعه داده های بزرگ استنتاج زبان انگلیسی نشانمی دهد که برخی از آنها به مرور رفع شده اند اما برخی دیگر خیر. این نتایج اهمیت دقت در انتخاب مجموعه داده برایآموزش مدل ها و همچنین انتخاب پروتکل طراحی مجموعه داده های جدید در زبان های مختلف دنیا را می رساند.

نویسندگان

محمد آذری جعفری

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم

فریبا صادقی

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم

مجید ایرانپورمبارکه

استادیار، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور