ترکیب روشهای نمونه گیری مجدد و تصمیم گیری چند معیاره برای بهبود تشخیص دیابت در داده های نامتوازن

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 74

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICISE11_096

تاریخ نمایه سازی: 8 آذر 1404

چکیده مقاله:

در این تحقیق چالشهای طبقه بندی داده های نامتوازن به ویژه در زمینه داده های پزشکی مانند تشخیص دیابت مورد بررسی قرار گرفته است. این مطالعه تاثیر روشهای مختلف نمونه گیری مجدد شامل بیش نمونه گیری و کم نمونه گیری در بهبود عملکرد مدلهای طبقه بندی را ارزیابی می کند. این پژوهش با ترکیب گسترده روشهای بیش نمونه گیری چهار روش و کم نمونه گیری چهار روش و به کارگیری چارچوب تصمیم گیری چند معیاره برای وزن دهی معیارها و رتبه بندی یک چارچوب یکپارچه و عملی برای انتخاب بهینه روشهای نمونه گیری مجدد در تشخیص دیابت از مجموعه داده بزرگ BRFSS ارائه می دهد. الگوریتمهای یادگیری ماشین مانند XGBoost و ماشین بردار پشتیبان (SVM) به کار گرفته شده و تاثیر این روشها بر دقت مدلها ارزیابی شده است. نتایج نشان می دهند که به طور میانگین، معیار حساسیت در تمام روشهای نمونه گیری مجدد بهبود داشته و به طور متوسط ۸۷.۳۲% افزایش یافته است. این افزایش به ویژه در روش XGBoost بیشترین سهم را داشته است. همچنین در تمامی روشها معیار Fl-score نیز بهبود قابل توجهی نشان داده است. اگرچه معیار AUC تغییرات چندانی نداشت، اما این نتایج نشان دهنده بهبود عملکرد مدلها در شناسایی کلاس اقلیت افراد دیابتی هستند. برای انتخاب بهترین روشهای نمونه گیری از روش تصمیم گیری چند معیاره (MCDM) شامل تحلیل سلسله مراتبی (AHP) برای وزن دهی به معیارها و روش MAIRCA برای رتبه بندی و تعیین اولویت میان روشهای طبقه بندی و نمونه گیری مجدد استفاده شده است.

نویسندگان

علی امی

دانشگاه صنعتی، شریف، تهران، ایران

عباس فروزانفر

دانشگاه صنعتی، شریف، تهران، ایران