مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان انگلیسی

سال انتشار: 1400
محل انتشار: چهارمین همایش بین المللی مهندسی فناوری اطلاعات، کامپیوتر و مخابرات ایران
کد COI اختصاصی: ICTBC04_046
زبان مقاله: فارسی
تعداد مشاهده: 583

دانلود فایل این مقاله

نویسندگان

محمد آذری جعفری

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم

فریبا صادقی

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم

مجید ایرانپورمبارکه

استادیار، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور

چکیده

امروزه با گسترش استفاده از رایانه و اینترنت، حجم متون و پیچیدگی ارتباطات آنها به قدری افزایش یافته است کهدیگر استنتاج در آنها به شکل سنتی و توسط افراد، ناممکن شده است. این مسئله به قدری اهمیت پیدا کرده است که درزیرمجموعه ای از هوش مصنوعی به نام پردازش زبان طبیعی، وظیفه ای مهم به نام استنتاج زبان طبیعی معرفی شده است.وظیفه ی استنتاج زبان طبیعی به دسته بندی نوع ارتباط یک عبارت با نام «مقدم» با عبارت دیگری با نام «تالی» در سهکلاس «دلالت»، «تضاد» و «خنثی» می پردازد. پژوهشگران در بسیاری از زبان های دنیا، برای آموزش مدل های استنتاجمجموعه داده های مهمی تهیه و تنظیم کرده اند. با توجه به اینکه اولین و بزرگترین مجموعه داده های استنتاج زبان طبیعیدر زبان پرمنبع انگلیسی توسعه داده شده اند، در این پژوهش، ما ابتدا این مجموعه داده ها را از نظر ویژگی های ساختاری،روش جمع آوری، تعداد نمونه ها، موضوعات (ژانر) و کلاهایشان را مرور کرده ایم. سپس نقاط ضعف و قوت آنها را با دقتبررسی کرده و سیر تکاملشان را تجزیه و تحلیل کرده ایم. نتایج این پژوهش سه مشکل اساسی تکژانر بودن، وجود مصنوعاتحاشیه نویسی در نمونه ها و عدم وجود هر سه کلاس استنتاج را در مجموعه داده های بزرگ استنتاج زبان انگلیسی نشانمی دهد که برخی از آنها به مرور رفع شده اند اما برخی دیگر خیر. این نتایج اهمیت دقت در انتخاب مجموعه داده برایآموزش مدل ها و همچنین انتخاب پروتکل طراحی مجموعه داده های جدید در زبان های مختلف دنیا را می رساند.

کلیدواژه ها

استنتاج زبان طبیعی، مجموعه داده، پیکره ی انگلیسی، استدلال در متن

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.