مروری بر مجموعه داده های استنتاج زبان طبیعی در زبان انگلیسی
- سال انتشار: 1400
- محل انتشار: چهارمین همایش بین المللی مهندسی فناوری اطلاعات، کامپیوتر و مخابرات ایران
- کد COI اختصاصی: ICTBC04_046
- زبان مقاله: فارسی
- تعداد مشاهده: 529
نویسندگان
کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم
کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم
استادیار، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور
چکیده
امروزه با گسترش استفاده از رایانه و اینترنت، حجم متون و پیچیدگی ارتباطات آنها به قدری افزایش یافته است کهدیگر استنتاج در آنها به شکل سنتی و توسط افراد، ناممکن شده است. این مسئله به قدری اهمیت پیدا کرده است که درزیرمجموعه ای از هوش مصنوعی به نام پردازش زبان طبیعی، وظیفه ای مهم به نام استنتاج زبان طبیعی معرفی شده است.وظیفه ی استنتاج زبان طبیعی به دسته بندی نوع ارتباط یک عبارت با نام «مقدم» با عبارت دیگری با نام «تالی» در سهکلاس «دلالت»، «تضاد» و «خنثی» می پردازد. پژوهشگران در بسیاری از زبان های دنیا، برای آموزش مدل های استنتاجمجموعه داده های مهمی تهیه و تنظیم کرده اند. با توجه به اینکه اولین و بزرگترین مجموعه داده های استنتاج زبان طبیعیدر زبان پرمنبع انگلیسی توسعه داده شده اند، در این پژوهش، ما ابتدا این مجموعه داده ها را از نظر ویژگی های ساختاری،روش جمع آوری، تعداد نمونه ها، موضوعات (ژانر) و کلاهایشان را مرور کرده ایم. سپس نقاط ضعف و قوت آنها را با دقتبررسی کرده و سیر تکاملشان را تجزیه و تحلیل کرده ایم. نتایج این پژوهش سه مشکل اساسی تکژانر بودن، وجود مصنوعاتحاشیه نویسی در نمونه ها و عدم وجود هر سه کلاس استنتاج را در مجموعه داده های بزرگ استنتاج زبان انگلیسی نشانمی دهد که برخی از آنها به مرور رفع شده اند اما برخی دیگر خیر. این نتایج اهمیت دقت در انتخاب مجموعه داده برایآموزش مدل ها و همچنین انتخاب پروتکل طراحی مجموعه داده های جدید در زبان های مختلف دنیا را می رساند.کلیدواژه ها
استنتاج زبان طبیعی، مجموعه داده، پیکره ی انگلیسی، استدلال در متنمقالات مرتبط جدید
- تاثیر میکروبهای مقاوم به آنتی بیوتیک در زنجیرههای آبی شهری و راهکارهای کنترلی
- مدل سازی ساختاری عوامل اجتماعی و فردی موثر بر روی فاکتور کشف خطر با نقش میانجی رضایت شغلی در صنعت پتروشیمی
- تحلیل و طراحی سیستمهای هوشمند در ساختمان های پایدار
- طراحی و پیاده سازی میکسر صنعتی هوشمند با امکان افزودن خودکار مواد روغنی و کنترل فیزیکوشیمیایی محصول
- مدیریت و تعیین میزان برداشت بهینه از آبخوانها
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.