PSO Algorithm for Text Clustering Based on Latent Semantic Indexing
- سال انتشار: 1389
- محل انتشار: چهارمین کنفرانس داده کاوی ایران
- کد COI اختصاصی: IDMC04_093
- زبان مقاله: انگلیسی
- تعداد مشاهده: 2325
نویسندگان
Qazvin Islamic Azad University, Electrical & computer engineering faculty, Qazvin, Iran
Faculty of Computer & IT Engineering, Shahrood University of Technology, Iran
چکیده
In this paper we develop a PSO algorithm based on latent semantic indexing (PSO+LSI) for text clustering. Main problem of text clustering algorithm is very high dimension because in vector space model (VSM) each term represent one dimension. Latent semantic indexing (LSI) is a technique that can reduce high dimension textual data. PSO family of bio-inspired algorithms has recently successfully been applied to a number of real word clustering problems. We use a adaptive inertia weight (AIW) that do proper exploration and exploitation in search space. PSO can merge with LSI to achieve best clustering accuracy and efficiency. the superiority of PSO+LSI over PSO+Kmeans clustering algorithm is demonstrated in two dataset (Hamshahri & Reuters).کلیدواژه ها
Vector Space Model ; PSO Algorithm ; Latent Semantic Indexing ; Text Clustering; Adaptive Inertia Weight;اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.