جانشینی مقادیر گمشده و تاثیر آن بر خطای کلاسه بندی

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 492

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

BPJ02_240

تاریخ نمایه سازی: 11 آبان 1395

چکیده مقاله:

اجتناب از داده های گمشده در مجموعه داده های واقعی، حتی اگر نهایت دقت هم در جمع آوری داده ها بشود، باز هم غیرممکن است. این مقادیر می توانند تمام فرایند داده کاوی و تفسیرهای حاصل را تحت تاثیر قرار دهند. اکثر الگوریتم های داده کاوی با این فرض طراحی شده اند که هیچ مقدار گمشده ای در مجموعه داده ها وجود ندارد. بنابراین برخورد با مقادیر گمشده می تواند بطور قابل ملاحظه ای کیفیت داده کاوی را افزایش دهد.در این مقاله، تاثیر روش های معروف جانشینی مقادیر گمشده شامل KNN، Hot Deck، Mean/Mode و Multiple Imputation بر روی دقت و خطای کلاسه بندی با آزمایش بر روی ده مجموعه داده با کاربردهای مختلف مورد مقایسه و ارزیابی قرار می گیرند. آزمایشات بر روی شش نرخ مختلف از مقادیر گمشده انجام می گیرند. این مجموعه داده ها در اندازه، تعداد مقادیر گمشده، و انواع داده های اسمی و عددی متفاوت می باشند. در آزمایشات از پنج کلاسه بند معروف نزدیکترین k همسایه، بیزین ساده، مبتنی بر قاعده ی RIPPER و ماشین بردار پشتیبان استفاده می شود.

نویسندگان

حمیدرضا طهماسبی

مربی، عضو هیات علمی، گروه کامپیوتر، دانشگاه آزاد اسلامی واحد کاشمر، کاشمر، ایران،

ملیحه آموزگار

مربی، عضو هیات علمی، گروه کامپیوتر، دانشگاه آزاد اسلامی واحد کاشمر، کاشمر، ایران،

حسن قائدی

مربی، عضو هیات علمی، گروه کامپیوتر، دانشگاه آزاد اسلامی واحد کاشمر، کاشمر، ایران،

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • J. D. A. Silva and E. R Hruschka, "An experimentl ...
  • ]N. C. Vinod and M. Pumithavalli, "Classification of incomplete [13] ...
  • G. E. a. P. a. Batista and , C. Monard, ...
  • A. Farhangfar, L. A. Kurgan, and W. Pedrycz, "Experimental analysis ...
  • Y. Munirah, "The Impact of Missing Value Methos and Normalization ...
  • F. Lobato, C. Sales, I. Araujo, V. Tadaiesky, L. Dias, ...
  • _ _ _ [18] _ _ _ _ pp. 61-74, ...
  • _ _ _ Networks, vol. 24, no. 1, pp. 121-129, ...
  • _ _ _ _ [20] J. M. Jerez, I. Molina, ...
  • cancer problem, " Artif. Intell. Med., vol. 50, no. 2, ...
  • the use of nearest neighbor-based imputation algorithms for classification tasks, ...
  • data handling techniques an overview, " Int. J. Comput. Sci. ...
  • B. Suthar, H. Patel, and A. Goswami, "A Survey : ...
  • S. Naderi, N. Moghaddam, and E. Kabir, "Analysis of supervised ...
  • R. S. Somasundaram and R. Nedunchezhian, "Evaluation of Three Simple ...
  • and A. Santana, "Multi-Obj ective Genetic Algorithm For Missing Data ...
  • TData, " Eur. J. Sci. Res., ol. 33, no. 4, ...
  • _ Zhang, "Shell-neighbor method and its application in missing data ...
  • نمایش کامل مراجع