CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی

عنوان مقاله: مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان های کم منبع غیرانگلیسی
شناسه ملی مقاله: RSETCONF07_022
منتشر شده در هفتمین کنفرانس بین المللی تحقیقات پیشرفته در علوم، مهندسی و فناوری در سال 1400
مشخصات نویسندگان مقاله:

محمد آذری جعفری - کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم

خلاصه مقاله:
با گسترش استفاده از تکنولوژی در دنیا، روزانه صدها کتاب، سند، نامه، متن علمی و غیرعلمی در رشته هایمختلف به صورت دیجیتال تولید میشود. حجم این متون آنقدر زیاد شده است که پژوهشگران علومکامپیوتر، برای تجزیه و تحلیل این متون وظایف مهمی را در هوش مصنوعی معرفی کرده اند. استنتاج زبانطبیعی یکی از این وظایف است که در آن ماشین به دسته بندی ارتباط دو عبارت «مقدم» و «تالی» درسه کلاس «دلالت»، «خنثی» و «تضاد» می پردازد. با اینکه اخیرا پیشرفت های زیادی در زمینه ی استنتاج زبان طبیعی انجام شده است، اما اکثر این پیشرفت ها محدود به زبان پرمنبع انگلیسی است و سایر زبان هایدنیا به خصوص زبان های کم منبع از توسعه در این مسیر عقب مانده اند. دلیل اصلی آن وجودمجموعه داده های بزرگ و مناسب استنتاج در زبان انگلیسی و عدم وجود، حجم کم یا کیفیت پایین اینمجموعه داده ها در اکثر زبان های غیرانگلیسی برای آموزش مدل های استنتاج می باشد. در این پژوهش، مامجموعه داده های غیرانگلیسی که اکثرا از زبان های کم منبع می باشند و به روش های اتوماتیک، نیمه اتوماتیکو دستی تولید شده اند را مرور کرده ایم. ما همچنین این مجموعه داده ها را از ابعاد مختلف از جمله زبان،منبع اصلی، موضوعات، شیوه ی جمع آوری، نوع برچسب و تعداد نمونه ها بررسی کرده و برخی از مهمترینمشکلات موجود در آنها را تجزیه و تحلیل کرده ایم. یافته های این پژوهش، علاوه بر کمک به محققینحوزه ی استنتاج زبان طبیعی در جهت انتخاب مجموعه داده ی مناسب، راهنمایی برای طراحی پروتکلجمع آوری مجموعه داده های جدید در زبان های مختلف دنیا به خصوص زبان های کم منبع می باشد.

کلمات کلیدی:
استنتاج زبان طبیعی، پردازش متن، دلالت های متنی، زبان های کم منبع

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1263735/