Improving Text Mining with Featured Word Selection

  • سال انتشار: 1397
  • محل انتشار: چهارمین کنفرانس بین المللی وب پژوهی
  • کد COI اختصاصی: IRANWEB04_020
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 944
دانلود فایل این مقاله

نویسندگان

M.Amin Abolghasemi

Master Student of Artificial Intelligence, Amirkabir University of Technology, Tehran, Iran

Saeedeh Momtazi

Assistant Professor of Artificial Intelligence, Amirkabir University of Technology, Tehran, Iran

چکیده

Text mining is one of the main tasks in web research that aims at classification or clustering available texts in the web for different applications, such as news analysis and social network analysis. Since a very large amount of textual data is available on the Web, reducing the dimension of data using feature extraction techniques plays an important role in improving the efficiency and effectiveness of the text mining algorithms. Various techniques have been proposed in machine learning tasks that can also be applied in the text mining domain. In this paper we study the available techniques and compare their impact on improving Persian text classification performance. Our experimental results on Hamshahri corpus shows that using an appropriate feature selection technique can improve the classification f-measure from 88.12% to 93.07%.×

کلیدواژه ها

Web Mining, Text Mining, Text Classification, Feature Selection

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.