CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

خوشه بندی متون علمی با استفاده از یک روش هیبرید مبتنی بر وزن دهی اصطلاحات و خلاصه سازی متن

عنوان مقاله: خوشه بندی متون علمی با استفاده از یک روش هیبرید مبتنی بر وزن دهی اصطلاحات و خلاصه سازی متن
شناسه ملی مقاله: ICIKT07_196
منتشر شده در هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش در سال 1394
مشخصات نویسندگان مقاله:

امید سجودی شیجانی - دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
پدرام وحدانی آملی - دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران

خلاصه مقاله:
این مقاله روشی جدید برای خوشه بندی متون موضوعی مختلف بر اساس خلاصه سازی متن ارایه می دهد. علت استفاده از خلاصه سازی در خوشه بندی متن حذف کلمات غیرمهم و غیرضروری است که در خوشه بندی متن باعث افزایش بعد داده ها و در نتیجه افزایش چشمگیر زمان اجرا و پیچیدگی محاسباتی فرایند خوشه بندی می شوند. روش پیشنهادی دارای سه فاز اجرایی پیش پردازش شامل حذف کلمات پرتکرار و غیرمهم در کل متن و وزن دهی اصطلاحات هر سند، خلاصه سازی با استفاده از فرمول BM25 در سطح جمله برای هر سند و در انگلیسی برگرفته از منابع علمی در حوزه 11 موضوع مختلف روش پیشنهادی با روش های CSSA، SMTC و MaxCapture مقایسه گردید که این نتایج بیانگر این موضوع بوده است که علاوه بر برتری نسبی بازدهی روش پیشنهادی نسبت به سایر روش های مذکور(با توجه به فرمول) F-measure، سرعت اجرای الگوریتم پیشنهادی بمراتب بیشتر ازسایر روش ها می باشد.

کلمات کلیدی:
خلاصه سازی متن، خوشه بندی، امتیازدهی، وزن دهی کلمات، متن کاوی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/388838/