خلاصه سازی استخراجی چند سندی، مبتنی بر پرس وجوی کاربر با استفاده از روش های یادگیری ماشین و ویژگی های زبان شناسی

  • سال انتشار: 1402
  • محل انتشار: اولین کنفرانس ملی هوش مصنوعی و مهندسی نرم افزار
  • کد COI اختصاصی: AISOFT01_055
  • زبان مقاله: فارسی
  • تعداد مشاهده: 126
دانلود فایل این مقاله

نویسندگان

سیمین ذوالفقاری

دانشجوی ارشد مهندسی نرمافزار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد

محمدرضا پژوهان

استادیار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد

چکیده

هم زمان با رشد سریع اینترنت و مواجهه با حجم عظیمی از اطلاعات در فضای وب نظیر شبکه های اجتماعی و بازاریابی دیجیتال و غیره، خلاصه سازی خودکار متن کمک شایانی به تحلیل و بازیابی متون در بحث جستجوی اطلاعات می کند. خلاصه سازی متن عبارت است از حذف داده های تکراری و بی ارزش به نحوی که تنها اطلاعات مهم استخراج شود. در این مقاله، با تمرکز بر چالش های اصلی خلاصه سازی چندسندی، یعنی پوشش کامل مطالب اصلی و عدم وجود افزونگی و هم چنین در نظر گرفتن پرس و جوی کاربر، روش جدیدی برای خلاصه سازی چندسندی استخراجی، مبتنی بر پرس وجوی کاربر ارائه شده است. در مدل پیشنهادی در ابتدا جملاتی که پوشش دهنده محتوای معنایی اسناد هستند، استخراج می شوند. سپس آن دسته از جملاتی که دارای افزونگی بوده یا مرتبط به پرس وجوی کاربر نمی-باشند، حذف می گردند. درنهایت با استفاده از تولید ماتریس ویژگی و یک شبکه عصبی ساده به جملات نمره داده می شود. سپس با توجه به طول خلاصه مورد نظر، جملات دارای نمره بالاتر برای تولید خلاصه انتخاب می گردند. ارزیابی سیستم پیشنهادی با استفاده از مجموعه دادگان انگلیسی ارائه شده توسط کنفرانس DUC۲۰۰۷ و با استفاده از معیارROUGE صورت گرفته است. نتایج حاصل از ارزیابی، حاکی از آن است که سیستم پیشنهادی نسبت به سیستم پایه به میزان ۹.۲۸ درصد، معیار-F را بهبود بخشیده است.

کلیدواژه ها

خلاصه سازی مبتنی بر پرس وجوی کاربر، خلاصه سازی استخراجی چند سندی، استخراج ویژگی، ارتباط معنایی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.