Text classification with unbalanced classes using Bayes formula

  • سال انتشار: 1391
  • محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند
  • کد COI اختصاصی: ICS11_260
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 1006
دانلود فایل این مقاله

نویسندگان

Mohammad Reza Saeedi Mohammadi

Bu-Ali Sina University, Hamadan, Iran

Mohammad Reza Alagheband

Bu-Ali Sina University, Hamadan, Iran

Omid Tabibzade

Bu-Ali Sina University, Hamadan, Iran,

Mir Hossein Dezfoulian

Bu-Ali Sina University, Hamadan, Iran

چکیده

A common method for text classification is using multinomial naive Bayes (MNB) that is a version of naive Bayes with relatively simple calculations for redicting the related classes, using a data set with outcome of high performance. In this paper, we resolve one of the problems of text classification for imbalanced data sets and also we propose a correction to previous works for adjusting their characteristics. This correction can be used as other data normalization step. Modified version of classification gives much more accurate results. The results from our experiments show that, the precision of this method is more than 0.94, which is a noticeable result in the Persian text document classification

کلیدواژه ها

Classification; texts classification; Bayesian method; unbalanced texts

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.