Missing data imputation using supervised learning methods

  • سال انتشار: 1400
  • محل انتشار: دوفصلنامه مدل سازی آماری: نظری و کاربردها، دوره: 2، شماره: 2
  • کد COI اختصاصی: JR_JSMTA-2-2_007
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 129
دانلود فایل این مقاله

نویسندگان

Behzad Rezaei Shiri

School of Mathematics, Statistics and Computer Science, College of Science, University of Tehran, Tehran, Iran

Samaneh Eftekhari Mahabadi

School of Mathematics, Statistics and Computer Science, College of Science, University of Tehran, Tehran, Iran

چکیده

Missing data is a very common problem in all research fields. Case deletion is a simple way to handle incomplete data sets which could mislead to biased statistical results. A more reliable approach to handle missing values is imputation which allows covariate-dependent missing mechanism, as well. This paper aims to prepare guidance for researchers facing missing data problems by comparing various imputation methods including machine learning techniques, to achieve better results in supervised learning tasks. A benchmark dataset has experimented and the results are compared by applying popular classifiers over varying missing mechanisms and rates on this benchmark dataset.

کلیدواژه ها

Imputation, Machine learning algorithms, Missing data, Missing mechanism

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.