Topic Word Set-Based Text Clustering

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 1,634

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ECDC07_047

تاریخ نمایه سازی: 9 تیر 1392

چکیده مقاله:

Clustering is the task of grouping related and similar data without any prior knowledge about the labels. In some real world applications, we face huge amounts of unstructuredtextual data with no organization. In these situations, clustering is a primitive operation that needs to be done to help future e-commerce tasks. Clustering can be used to enhancedifferent e-commerce applications like recommender systems, customer relationshipmanagement systems or personal assistant agents. In this paper we propose a new method for text clustering, by constructing a term correlation graph, and then extracting topic wordsets from it and finally, categorizing each document to its related topic with the help of a classification algorithm like SVM. This method provides a natural and understandable description for clusters by their topic word sets, and it also enables us to decide the clusterof documents only when needed and in a parallel fashion, thus significantly reducing the offline processing time. Our clustering method also outperforms the well-known k-means clustering algorithm according to clustering quality measures.

نویسندگان

Amir Mehdi Ghazifard

E-Learning Department,University of Isfahan, Isfahan, Iran

Mohammadreza Shams

ECE Department,University of Tehran, Tehran, Iran

Zeinab Shamaee

ECE Department,Isfahan University of Technology, Isfahan, Iran

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Beil, F., Ester, M., & Xu, X. (2002, July). Frequent ...
  • Chakrabarti, S. (2000). Data mining for hypertext: A tutorial survey. ...
  • Steinbach, M., Karypis, G., & Kumar, V. (2000, August). A ...
  • Enright, A. J., Van Dongen, S., & Ouzounis, C. A. ...
  • Scholkopf, B., Smola, A. J., Williamson, R. C., & Bartlett, ...
  • Amiri, H., AleAhmad, A., Rahgozar, M., & Oroumchian, F. (2008, ...
  • Lan, M., Sung, S. Y., Low, H. B., & Tan, ...
  • Chang, C. C., & Lin, C. J. (2011). LIBSVM: a ...
  • Sebastiani, F. (2002). Machine learning in automated text categorization. ACM ...
  • Joachims, T. (1998). Text categorization with support vector machines: Learning ...
  • http ://www.micans .org/mcl/ ...
  • http : //ece.ut. ac _ ir/DB RG/H amshahri ...
  • INitiative for the Evaluation of XML Retrieval (INEX), http:/inex.is _ ...
  • Fuhr, N., Malik, S., & Lalmas, M. (2004, March). Overview ...
  • (1s]) Shams, M., Shakery, A., & Faili, H. (2012, May). ...
  • Shams, M., Saffar, M., Shakery, A., & Faili, H. (2012). ...
  • نمایش کامل مراجع