خوشه بندی متون علمی با استفاده از یک روش هیبرید مبتنی بر وزن دهی اصطلاحات و خلاصه سازی متن
عنوان مقاله: خوشه بندی متون علمی با استفاده از یک روش هیبرید مبتنی بر وزن دهی اصطلاحات و خلاصه سازی متن
شناسه ملی مقاله: ICIKT07_196
منتشر شده در هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش در سال 1394
شناسه ملی مقاله: ICIKT07_196
منتشر شده در هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش در سال 1394
مشخصات نویسندگان مقاله:
امید سجودی شیجانی - دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
پدرام وحدانی آملی - دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
خلاصه مقاله:
امید سجودی شیجانی - دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
پدرام وحدانی آملی - دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
این مقاله روشی جدید برای خوشه بندی متون موضوعی مختلف بر اساس خلاصه سازی متن ارایه می دهد. علت استفاده از خلاصه سازی در خوشه بندی متن حذف کلمات غیرمهم و غیرضروری است که در خوشه بندی متن باعث افزایش بعد داده ها و در نتیجه افزایش چشمگیر زمان اجرا و پیچیدگی محاسباتی فرایند خوشه بندی می شوند. روش پیشنهادی دارای سه فاز اجرایی پیش پردازش شامل حذف کلمات پرتکرار و غیرمهم در کل متن و وزن دهی اصطلاحات هر سند، خلاصه سازی با استفاده از فرمول BM25 در سطح جمله برای هر سند و در انگلیسی برگرفته از منابع علمی در حوزه 11 موضوع مختلف روش پیشنهادی با روش های CSSA، SMTC و MaxCapture مقایسه گردید که این نتایج بیانگر این موضوع بوده است که علاوه بر برتری نسبی بازدهی روش پیشنهادی نسبت به سایر روش های مذکور(با توجه به فرمول) F-measure، سرعت اجرای الگوریتم پیشنهادی بمراتب بیشتر ازسایر روش ها می باشد.
کلمات کلیدی: خلاصه سازی متن، خوشه بندی، امتیازدهی، وزن دهی کلمات، متن کاوی
صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/388838/