مقابله با عدم تعادل طبقاتی داده ها در یادگیری ماشین: ارزیابی و مقایسه تکنیک های متعادل سازی مجموعه داده های نامتعادل

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 244

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DTIS02_031

تاریخ نمایه سازی: 14 مرداد 1403

چکیده مقاله:

در عصر دیجیتال امروزی، یادگیری ماشین به یک فناوری ضروری برای سازمان ها و افراد تبدیل شده است. با رشد تصاعدی داده ها و اطلاعات دیجیتال، قابلیت های پردازش کارآمد داده یک نیاز ضروری است. با این حال، یادگیری ماشین با چالش های متعددی مواجه می شود، از جمله مسئله عدم تعادل کلاس، که اغلب با افزایش حجم داده ها به وجود می آید. عدم تعادل کلاس به حالتی گفته می شود که در آن تعداد نمونه های یک کلاس به طور قابل توجهی از کلاس دیگر بیشتر است و منجر به توزیع نامتوازن می شود. این عدم تعادل طبقاتی می تواند اثرات مضری بر عملکرد طبقه بندی داشته باشد که باعث می شود توسعه استراتژی های موثر برای مدیریت مجموعه داده های نامتعادل و بهبود نتایج طبقه بندی را ضروری می کند. پرداختن به این موضوع نیازمند روش های متعادل سازی موثر برای افزایش عملکرد مدل و کاهش حساسیت است. در این مقاله، ما یک بررسی کامل از تکنیک های متعادل سازی SMOTE، ADASYN، SMOTEBoost، RUSBoost و AdaBoost انجام داده ایم. ارزیابی بر روی مجموعه داده های نامتعادل مختلف به دست آمده از Kaggle با استفاده از ماتریس در همریختگی انجام شده است که دامنه های متنوع و نسبت های عدم تعادل طبقاتی را نشان می دهد و از نمایش گسترده چالش هایی که در عمل با آن مواجه می شوند اطمینان حاصل می کند. هر روش به طور سیستماتیک از نظر توانایی آن برای افزایش عملکرد پیش بینی، کاهش تاثیر عدم تعادل کلاس و بهبود استحکام کلی مدل ارزیابی شده است.

کلیدواژه ها:

نویسندگان

ابوذر شجاعیان

مجتمع آموزش عالی لارستان،

فاطمه مویدی

گروه مهندسی کامپیوتر، مجتمع آموزش عالی لارستان، لار