سیستم خلاصه ساز خودکار متن های فارسی

  • سال انتشار: 1387
  • محل انتشار: چهاردهمین کنفرانس سالانه انجمن کامپیوتر ایران
  • کد COI اختصاصی: ACCSI14_082
  • زبان مقاله: فارسی
  • تعداد مشاهده: 4525
دانلود فایل این مقاله

نویسندگان

مجید بهره پور

گروه تحقیقاتی سیستم های فراگیرنده، دانشگاه Twente هلند

الهام مهدی پور

کامپیوتر موسسه آموزش عالی خاوران مشهد

آزاده کامل

دانشگاه آزاد اسلامی واحد مشهد

ملیجه امیری

موسسه آموزش عالی خاوران مشهد

چکیده

امروزه با رشد سریع اطلاعات و داده ها، یافتن اطلاعات مناسب و کارا از اهمیت خاصی برخوردار است. هدف خلاصه سازی خودکار متن، فراهم کردن خلاصه ای از محتویات مطابق با اطلاعات مورد نیاز کاربر است. در این مقاله، نگارندگان ابتدا مفاهیم خلاصه سازی و انواع آن، سپس سیستم های خلاصه ساز موجود، و در نهایت روش خلاصه سازی خودکار متنهای فارسی پیشنهادی را بررسی نموده اند. روش پیشنهادی، ترکیبی از روشهای مبتنی بر گراف ،‌TF-IDF و الگوریتم ژنتیک (Genetic Algorithm) است. در این روش کلمات قبل از امتیازدهی جملات، ریشه یابی می شوند. پس از امتیازدهی، جملات خلاصه با استفاده از الگوریتم ژنتیک (GA )‌انتخاب می شوند. تابع برازندگی الگوریتم ژنتیک مبتنی بر سه فاکتور شباهت با عنوان، قابلیت خوانایی و پیوستگی است. ارزیابی خلاصه های حاصل از پیاده سازی سیستم پیشنهادی در انتهای مقاله آورده شده است.

کلیدواژه ها

الگوریتم ژنتیک، تابع برازندگی، خلاصه سازی، TF-IDF ،Genetic Algorithm

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.