خوشه بندی متون علمی با استفاده از یک روش هیبرید مبتنی بر وزن دهی اصطلاحات و خلاصه سازی متن

  • سال انتشار: 1394
  • محل انتشار: هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش
  • کد COI اختصاصی: ICIKT07_196
  • زبان مقاله: فارسی
  • تعداد مشاهده: 608
دانلود فایل این مقاله

نویسندگان

امید سجودی شیجانی

دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران

پدرام وحدانی آملی

دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران

چکیده

این مقاله روشی جدید برای خوشه بندی متون موضوعی مختلف بر اساس خلاصه سازی متن ارایه می دهد. علت استفاده از خلاصه سازی در خوشه بندی متن حذف کلمات غیرمهم و غیرضروری است که در خوشه بندی متن باعث افزایش بعد داده ها و در نتیجه افزایش چشمگیر زمان اجرا و پیچیدگی محاسباتی فرایند خوشه بندی می شوند. روش پیشنهادی دارای سه فاز اجرایی پیش پردازش شامل حذف کلمات پرتکرار و غیرمهم در کل متن و وزن دهی اصطلاحات هر سند، خلاصه سازی با استفاده از فرمول BM25 در سطح جمله برای هر سند و در انگلیسی برگرفته از منابع علمی در حوزه 11 موضوع مختلف روش پیشنهادی با روش های CSSA، SMTC و MaxCapture مقایسه گردید که این نتایج بیانگر این موضوع بوده است که علاوه بر برتری نسبی بازدهی روش پیشنهادی نسبت به سایر روش های مذکور(با توجه به فرمول) F-measure، سرعت اجرای الگوریتم پیشنهادی بمراتب بیشتر ازسایر روش ها می باشد.

کلیدواژه ها

خلاصه سازی متن، خوشه بندی، امتیازدهی، وزن دهی کلمات، متن کاوی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.