خوشه بندی متون علمی با استفاده از یک روش هیبرید مبتنی بر وزن دهی اصطلاحات و خلاصه سازی متن
- سال انتشار: 1394
- محل انتشار: هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش
- کد COI اختصاصی: ICIKT07_196
- زبان مقاله: فارسی
- تعداد مشاهده: 608
نویسندگان
دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
دانشگاه آزاد اسلامی واحد قزوین، گروه رایانه و کامپیوتر، قزوین، ایران
چکیده
این مقاله روشی جدید برای خوشه بندی متون موضوعی مختلف بر اساس خلاصه سازی متن ارایه می دهد. علت استفاده از خلاصه سازی در خوشه بندی متن حذف کلمات غیرمهم و غیرضروری است که در خوشه بندی متن باعث افزایش بعد داده ها و در نتیجه افزایش چشمگیر زمان اجرا و پیچیدگی محاسباتی فرایند خوشه بندی می شوند. روش پیشنهادی دارای سه فاز اجرایی پیش پردازش شامل حذف کلمات پرتکرار و غیرمهم در کل متن و وزن دهی اصطلاحات هر سند، خلاصه سازی با استفاده از فرمول BM25 در سطح جمله برای هر سند و در انگلیسی برگرفته از منابع علمی در حوزه 11 موضوع مختلف روش پیشنهادی با روش های CSSA، SMTC و MaxCapture مقایسه گردید که این نتایج بیانگر این موضوع بوده است که علاوه بر برتری نسبی بازدهی روش پیشنهادی نسبت به سایر روش های مذکور(با توجه به فرمول) F-measure، سرعت اجرای الگوریتم پیشنهادی بمراتب بیشتر ازسایر روش ها می باشد.کلیدواژه ها
خلاصه سازی متن، خوشه بندی، امتیازدهی، وزن دهی کلمات، متن کاویمقالات مرتبط جدید
- کارآفرینی در کتابخانه های عمومی با راه اندازی خدمات مشاوره اطلاعاتی و مشاوره خوانندگان
- متاورس: مباحثی از فرصت های حرفه ای و مشاغل در گستره فناوری نوین
- بررسی معماری و بلوغ کسب و کار رایانش ابری بر مبنای مدیریت امنیت اطلاعات در علم اطلاع شناسی (مطالعه موردی شرکت های دانش بنیان پارک فناوری ارتباطات و اطلاعات)(چارچوب همکاری های بین رشته ای و فرا رشته ای برای کارآفرینی دانش بنیان)
- ایجاد سازمان نظام مدیریت اطلاعات و دانش (نماد)
- لزوم توجه به فرصت های جدید بازارکار در محتوای درسی رشته علم اطلاعات و دانش شناسی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.