خلاصه سازی چند سندی متون فارسی با استفاده از یک روش مبتنی بر خوشه بندی

  • سال انتشار: 1388
  • محل انتشار: کنفرانس ملی مهندسی نرم افزار
  • کد COI اختصاصی: NCSE01_015
  • زبان مقاله: فارسی
  • تعداد مشاهده: 4601
دانلود فایل این مقاله

نویسندگان

محسن مشکی

دانشکده کامپیوتر دانشگاه علم و صنعت ایران

مرتضی آنالویی

چکیده

در این مقاله، یک روش جدید مبتنی بر خوشه بندی برای خلاصه سازی چند سندی متون فارسی پیشنهاد شد. در این روش، پس از پیش پردازش متن شامل تعیین مرز واژ هها و جمله ها، یکسان سازی متن، حذف واژ ههای عمومی و شناسایی عناصر متنی چندتایی، فرآیند اصلی خلاصه سازی آغاز میشود. در مرحله ی خلاصه سازی، ابتدا جمله ها خوشه بندی می شود و سپس به ازای هر خوشه جملها ی که بیشترین ارتباط با سایر جمله ها را دارد، گزینش می شود. در آخرین مرحله ی خلاصه سازی، جمله ها با توجه به ترتیب زمانی متن ها (خبری) در خلاصه ی نهایی درج میشوند. نتایج پیاده سازی نشان میدهند که در بیشتر موارد خروجی سامانه ی خلاصه سازی پیشنهادی خلاصه ی قابل قبولی را تولید می کند (بیش از 80 درصد).

کلیدواژه ها

خلاصه سازی چند سندی، پیش پردازش، خوشه بندی، عنصر متنی چندتایی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.