CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

خلاصه سازی استخراجی چند سندی، مبتنی بر پرس وجوی کاربر با استفاده از روش های یادگیری ماشین و ویژگی های زبان شناسی

عنوان مقاله: خلاصه سازی استخراجی چند سندی، مبتنی بر پرس وجوی کاربر با استفاده از روش های یادگیری ماشین و ویژگی های زبان شناسی
شناسه ملی مقاله: AISOFT01_055
منتشر شده در اولین کنفرانس ملی هوش مصنوعی و مهندسی نرم افزار در سال 1402
مشخصات نویسندگان مقاله:

سیمین ذوالفقاری - دانشجوی ارشد مهندسی نرمافزار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد
محمدرضا پژوهان - استادیار، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد

خلاصه مقاله:
هم زمان با رشد سریع اینترنت و مواجهه با حجم عظیمی از اطلاعات در فضای وب نظیر شبکه های اجتماعی و بازاریابی دیجیتال و غیره، خلاصه سازی خودکار متن کمک شایانی به تحلیل و بازیابی متون در بحث جستجوی اطلاعات می کند. خلاصه سازی متن عبارت است از حذف داده های تکراری و بی ارزش به نحوی که تنها اطلاعات مهم استخراج شود. در این مقاله، با تمرکز بر چالش های اصلی خلاصه سازی چندسندی، یعنی پوشش کامل مطالب اصلی و عدم وجود افزونگی و هم چنین در نظر گرفتن پرس و جوی کاربر، روش جدیدی برای خلاصه سازی چندسندی استخراجی، مبتنی بر پرس وجوی کاربر ارائه شده است. در مدل پیشنهادی در ابتدا جملاتی که پوشش دهنده محتوای معنایی اسناد هستند، استخراج می شوند. سپس آن دسته از جملاتی که دارای افزونگی بوده یا مرتبط به پرس وجوی کاربر نمی-باشند، حذف می گردند. درنهایت با استفاده از تولید ماتریس ویژگی و یک شبکه عصبی ساده به جملات نمره داده می شود. سپس با توجه به طول خلاصه مورد نظر، جملات دارای نمره بالاتر برای تولید خلاصه انتخاب می گردند. ارزیابی سیستم پیشنهادی با استفاده از مجموعه دادگان انگلیسی ارائه شده توسط کنفرانس DUC۲۰۰۷ و با استفاده از معیارROUGE صورت گرفته است. نتایج حاصل از ارزیابی، حاکی از آن است که سیستم پیشنهادی نسبت به سیستم پایه به میزان ۹.۲۸ درصد، معیار-F را بهبود بخشیده است.

کلمات کلیدی:
خلاصه سازی مبتنی بر پرس وجوی کاربر، خلاصه سازی استخراجی چند سندی، استخراج ویژگی، ارتباط معنایی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1912890/