شناسایی و رتبه بندی سوالات مشابه در سیستم های پرس و پاسخ جمعی مبتنی بر شباهت لغوی، معنایی و ساختاری سوالات

  • سال انتشار: 1398
  • محل انتشار: چهارمین کنفرانس ملی تکنولوژی در مهندسی برق و کامپیوتر
  • کد COI اختصاصی: ETECH04_083
  • زبان مقاله: فارسی
  • تعداد مشاهده: 578
دانلود فایل این مقاله

نویسندگان

سارا معینی

دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز شیراز، ایران

محمد رضا موسوی

دانشکده مهندسی برق و کامپیوتر، دانشگاه شیراز شیراز، ایران

چکیده

سیستم های پرس و پاسخ جمعی (community question answering systems) همانند Yahoo! Answers ،Stack Exchange و Quora در سال های اخیر با رشد چشمگیری مواجه شده اند و کاربران زیادی را به خود جذب کرده اند. یکی از مسائل مهم در این سیستم ها شناسایی سوالات مشابه با یک سوال جدید است. به صورت معمول مجموعه ای از سوالات جدید وجود دارد و به ازای هر سوال جدید، تعدادی از سوالات قدیمی به عنوان کاندیدا وجود دارند که باید بر اساس میزان شباهتشان با سوال جدید برچسبگذاری و رتبه بندی شوند. در روش ارائه شده در این مقاله پس از پیشپردازش سوالات، به ازای هر جفت سوال مجموعه ای از ویژگی ها بر اساس شباهت لغوی، معنایی و ساختاری استخراج شده و در نهایت از یک الگوریتم طبقه بندی برای تشخیص اینکه سوالات مرتبط هستند یا خیر، استفاده می شود. برای ارزیابی روش ارائه شده از مجموعه داده سومین چالش مسابقات SemEval-2017 استفاده شده است. با به کار بردن این روش، هر دو معیار mAP و F1 در مقایسه با برنده تیم شرکت کننده در این چالش، بهبود یافته است.

کلیدواژه ها

بازیابی پرسش، سیستم های پرسش و پاسخ جمعی، شباهت متن، شناسایی سوالات مشابه، متن کاوی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.