جانشینی مقادیر مفقود و تاثیر آن بر دقت کلاسه بندی در داده کاوی پزشکی

حمیدرضا طهماسبی; ملیحه آموزگار; هادی آدینه

جانشینی مقادیر مفقود و تاثیر آن بر دقت کلاسه بندی در داده کاوی پزشکی

محل انتشار: مجله انفورماتیک سلامت و زیست پزشکی، دوره: 2، شماره: 1

سال انتشار: 1394

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 71

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > داده کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2036378

شناسه ملی سند علمی:

JR_JHBMI-2-1_004

تاریخ نمایه سازی: 9 مرداد 1403

چکیده مقاله:

مقدمه: وجود مقادیر مفقود در داده های پزشکی می تواند تمام فرآیند داده کاوی و تفسیرهای حاصل را تحت تاثیر قرار دهد. بنابراین برخورد با این مقادیر ضروری می باشد. در این پژوهش تاثیر روش های مختلف برخورد با مقادیر مفقود بر روی دقت کلاسه بندی داده های پزشکی مورد ارزیابی قرار گرفت. روش: در این مطالعه، تاثیر روش های معروف جانشینی مقادیر مفقود شامل Mean/mode، Hot Deck، K-Nearest Neighbor، Maximum Possible Value، All Possible Value، Case Deletion و Regression بر روی دقت کلاسه بندی مجموعه داده های پزشکی سرطان سینه، ناراحتی قلبی، بیماری های پوستی، هپاتیت، تیروئید، دیابت، تومور اولیه، بیماران کبدی، سرطان ریه و بعد از جراحی، به ازای شش نرخ مختلف مقادیر مفقود، ارزیابی شد. در آزمایش ها از دو کلاسه بند شبکه های عصبی و نزدیکترین k همسایه در نرم افزار داده کاوی Weka استفاده شد. برای تخمین دقت، از روش ۱۰-Fold cross validation استفاده شد. نتایج: نتایج نشان داد برای کلاسه بند شبکه های عصبی، همه روش های جانشینی در برابر نرخ های مختلف مقادیر مفقود، تاثیرات متفاوتی در دقت کلاسه بندی داشتند. برای کلاسه بند نزدیکترین k همسایه، روش جانشینی Mean/mode در مقایسه با سایر روش ها تقریبا با افزایش نرخ مقادیر مفقود، باعث افزایش دقت کلاسه بندی گردید. در مجموع، هیچ یک از روش های جانشینی به ازای همه نرخ-های مختلف مقادیر مفقود، همواره بیشترین دقت را نتیجه نداده و برتری نداشت. نتیجه گیری: تحلیل نتایج نشان می دهد روش های جانشینی بررسی شده به ازای همه نرخ های مختلف از مقادیر مفقود شده لزوما باعث بهبود دقت کلاسه بندی نگردیده و هیچ کدام از روش های جانشینی بررسی شده بهترین روش نیستند.

کلیدواژه ها:

Missing values ، Replacement methods ، Medical Data Mining ، Classification ، مقادیر مفقود ، روش های جانشینی ، داده کاوی پزشکی ، کلاسه بندی

نویسندگان

حمیدرضا طهماسبی

۱. کارشناسی ارشد مهندسی کامپیوتر، مربی، گروه مهندسی کامپیوتر، دانشگاه آزاد اسلامی واحد کاشمر، کاشمر، ایران.

ملیحه آموزگار

Islamic Azad University

هادی آدینه

Islamic Azad University

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Tahmasbi HR. Data mining application in medical, opportunities and challenges. ...
Vinod NC, Punithavalli M. Classification of incomplete data handling techniques ...
Suthar B, Patel H, Goswami A. A survey : classification ...
Doove LL, Van Buuren S, Dusseldorp E. Recursive partitioning for ...
Liu Y, Brown SD. Comparison of five iterative imputation methods ...
Olamiti A O, Osofisan AO. Experimental comparison of missing value ...
Somasundaram RS, Nedunchezhian R. Evaluation of three simple imputation methods ...
Rahman MG, Islam MZ. FIMUS: A framework for imputing missing ...
Naderi S, Moghaddam N, Kabir EA. Analysis of supervised learners ...
Farhangfar A, Kurgan L, Dy J. Impact of imputation of ...
Zhang S. Shell-neighbor method and its application in missing data ...
Acuna E, Rodriguez C. The treatment of missing values and ...
Batista GE , Monard MC. An analysis of four missing ...
Silva-Ramírez EL, Pino-Mejías R, López-Coello M, Cubiles-de-la-Vega MD. Missing value ...
Munirah Y. The Impact of missing value methods and normalization ...
UCI Machine Learning Repository. [cited ۲۰۱۵ Mar ۲۰]. Available from: ...
Jerez JM, Molina I, García-Laencina PJ, Alba E, Ribelles N, ...

نمایش کامل مراجع