Improving Text Mining with Featured Word Selection
- سال انتشار: 1397
- محل انتشار: چهارمین کنفرانس بین المللی وب پژوهی
- کد COI اختصاصی: IRANWEB04_020
- زبان مقاله: انگلیسی
- تعداد مشاهده: 944
نویسندگان
Master Student of Artificial Intelligence, Amirkabir University of Technology, Tehran, Iran
Assistant Professor of Artificial Intelligence, Amirkabir University of Technology, Tehran, Iran
چکیده
Text mining is one of the main tasks in web research that aims at classification or clustering available texts in the web for different applications, such as news analysis and social network analysis. Since a very large amount of textual data is available on the Web, reducing the dimension of data using feature extraction techniques plays an important role in improving the efficiency and effectiveness of the text mining algorithms. Various techniques have been proposed in machine learning tasks that can also be applied in the text mining domain. In this paper we study the available techniques and compare their impact on improving Persian text classification performance. Our experimental results on Hamshahri corpus shows that using an appropriate feature selection technique can improve the classification f-measure from 88.12% to 93.07%.×کلیدواژه ها
Web Mining, Text Mining, Text Classification, Feature Selectionمقالات مرتبط جدید
- طبقه بندی صفحات وب برای بهینه سازی موتورهای جستجو با استفاده از مدل ترکیبی یادگیری عمیق
- تحول دیجیتال با قراردادهای هوشمند بر پایه فناوری بلاکچین
- تحلیل و شناسایی آسیبپذیریهای ناش ی از حملات شرایط رقابتی در برنامه های وب مدرن
- مروری بر الگوریتم بهینه سازی ازدحام ذرات و کاربردها
- بهینه سازی زمانبندی و ذخیره سازی نتایج وظایف در محیطهای مه-ابر با یادگیری تقویتی
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.