SVBO: Support Vector-Based Oversampling for Handling Class Imbalance in k-NN

  • سال انتشار: 1391
  • محل انتشار: بیستمین کنفرانس مهندسی برق ایران
  • کد COI اختصاصی: ICEE20_034
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 1249
دانلود فایل این مقاله

نویسندگان

Adel Ghazikhani

PhD student, Ferdowsi University of Mashhad and Lecturer at Imam Reza University Mashhad

Reza Monsefi

Assistant professor, Computer Engineering Department, Ferdowsi University of Mashhad

Hadi Sadoghi Yazdi

Associate professor, Computer Engineering Department, Ferdowsi University of Mashhad

چکیده

We propose a novel algorithm for handling class imbalance in the k-NN classifier. Class imbalance is a problem occurring in some valuable data such as medical diagnosis,fraud detection, oil spills and etc. The problem influences all supervised classification algorithms therefore a large amount ofresearch is being done. We tackle the problem by preprocessing the data using oversampling techniques. A two phase algorithm, based on Support Vector Data Description (SVDD) is proposed.SVDD is a tool for data description. In our approach we firstly describe data from the minority class i.e. the class with lessdata using SVDD. This is followed by oversampling of the support vectors, which is suitable for k-NN. We evaluate ourmethod using real world datasets with different imbalance ratios and compare it with four other oversampling methods namely SMOTE, Borderline SMOTE, random oversampling and cluster based sampling. The results show that the proposed algorithm is a suitable preprocessing method for the k-NN classifier

کلیدواژه ها

Class Imbalance; Oversampling; Support Vector Data Description; k-NN

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.