مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی

سال انتشار: 1400
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 511

فایل این مقاله در 10 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

RSETCONF07_022

تاریخ نمایه سازی: 11 شهریور 1400

چکیده مقاله:

با گسترش استفاده از تکنولوژی در دنیا، روزانه صدها کتاب، سند، نامه، متن علمی و غیرعلمی در رشته هایمختلف به صورت دیجیتال تولید میشود. حجم این متون آنقدر زیاد شده است که پژوهشگران علومکامپیوتر، برای تجزیه و تحلیل این متون وظایف مهمی را در هوش مصنوعی معرفی کرده اند. استنتاج زبانطبیعی یکی از این وظایف است که در آن ماشین به دسته بندی ارتباط دو عبارت «مقدم» و «تالی» درسه کلاس «دلالت»، «خنثی» و «تضاد» می پردازد. با اینکه اخیرا پیشرفت های زیادی در زمینه ی استنتاج زبان طبیعی انجام شده است، اما اکثر این پیشرفت ها محدود به زبان پرمنبع انگلیسی است و سایر زبان هایدنیا به خصوص زبان های کم منبع از توسعه در این مسیر عقب مانده اند. دلیل اصلی آن وجودمجموعه داده های بزرگ و مناسب استنتاج در زبان انگلیسی و عدم وجود، حجم کم یا کیفیت پایین اینمجموعه داده ها در اکثر زبان های غیرانگلیسی برای آموزش مدل های استنتاج می باشد. در این پژوهش، مامجموعه داده های غیرانگلیسی که اکثرا از زبان های کم منبع می باشند و به روش های اتوماتیک، نیمه اتوماتیکو دستی تولید شده اند را مرور کرده ایم. ما همچنین این مجموعه داده ها را از ابعاد مختلف از جمله زبان،منبع اصلی، موضوعات، شیوه ی جمع آوری، نوع برچسب و تعداد نمونه ها بررسی کرده و برخی از مهمترینمشکلات موجود در آنها را تجزیه و تحلیل کرده ایم. یافته های این پژوهش، علاوه بر کمک به محققینحوزه ی استنتاج زبان طبیعی در جهت انتخاب مجموعه داده ی مناسب، راهنمایی برای طراحی پروتکلجمع آوری مجموعه داده های جدید در زبان های مختلف دنیا به خصوص زبان های کم منبع می باشد.

کلیدواژه ها:

نویسندگان

محمد آذری جعفری

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم