Text classification with unbalanced classes using Bayes formula
- سال انتشار: 1391
- محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند
- کد COI اختصاصی: ICS11_260
- زبان مقاله: انگلیسی
- تعداد مشاهده: 1006
نویسندگان
Mohammad Reza Saeedi Mohammadi
Bu-Ali Sina University, Hamadan, Iran
Bu-Ali Sina University, Hamadan, Iran
Bu-Ali Sina University, Hamadan, Iran,
Bu-Ali Sina University, Hamadan, Iran
چکیده
A common method for text classification is using multinomial naive Bayes (MNB) that is a version of naive Bayes with relatively simple calculations for redicting the related classes, using a data set with outcome of high performance. In this paper, we resolve one of the problems of text classification for imbalanced data sets and also we propose a correction to previous works for adjusting their characteristics. This correction can be used as other data normalization step. Modified version of classification gives much more accurate results. The results from our experiments show that, the precision of this method is more than 0.94, which is a noticeable result in the Persian text document classificationکلیدواژه ها
Classification; texts classification; Bayesian method; unbalanced textsمقالات مرتبط جدید
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.