An Enhanced SMOTE Algorithm Using Entropy and Clustering for Imbalanced Accident Data

  • سال انتشار: 1393
  • محل انتشار: دومین همایش ملی پژوهش های کاربردی در علوم کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CITCONF02_513
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 606
دانلود فایل این مقاله

نویسندگان

Sima Sharifirad

Master student of computer science, AmirKabir University

Azra Nazari

Graduate student of master of computer science, AmirKabir University

Mahdi Ghatee

Assistant professor of computer science, AmirKabir University

چکیده

Over the course of the century, many real-world applications of imbalanced data are emerged. One of its implication which is first considered in this context, is imbalanced accident data. In this paper, the data of transportation and accidents in Tehran-Bazargan highway between 2010 and 2015 is considered. In the pre-processing step, SMOTE is considered as one of the most important over-sampling technique that effectively balance the imbalanced data. However, it brings noise and other problems and a great need is felt for improving this method. To solve these problems, several techniques have been proposed in this study such as combination of dynamic selected, weighted attribute and distance weighted techniques along with mixture of classification and clustering techniques. Performance of the proposed algorithm is measured by f-measure and ROC curve and the results are compared by Weka’s SMOTE with different algorithms.

کلیدواژه ها

imbalanced data, SMOTE, f-measure, ROC curve

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.