مقایسه عملکرد الگوریتم های کلاسیک یادگیری ماشین در شرایط داده های ناپاک (Noisy Labels)

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 36

فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITAIC01_024

تاریخ نمایه سازی: 14 مرداد 1404

چکیده مقاله:

داده های برچسب دار با کیفیت بالا برای آموزش مدل های یادگیری ماشین نظارت شده ضروری هستند، اما دستیابی به چنین داده هایی در بسیاری از کاربردهای دنیای واقعی، از جمله تحلیل تصاویر پزشکی و حوزه های صنعتی، فرآیندی پرهزینه، زمان بر و با چالش های فراوان است. در نتیجه، مجموعه داده های واقعی اغلب حاوی برچسب های نادرست یا 'ناپاک' (Noisy Labels) هستند که می تواند عملکرد مدل های یادگیری ماشین را به شدت تحت تاثیر قرار داده و کاهش دهد. این پژوهش با هدف بررسی تاثیر وجود برچسب های ناپاک بر دقت الگوریتم های کلاسیک یادگیری ماشین انجام شده است. روش مورد استفاده در این تحقیق شامل تزریق درصد مشخصی از نویز به برچسب های مجموعه داده های آموزشی است تا شرایط داده های ناپاک شبیه سازی شود. سپس، عملکرد الگوریتم های پرکاربردی مانند SVM، Random Forest، KNN و Logistic Regression بر روی این داده های ناپاک ارزیابی و مقایسه می شود. نتایج به دست آمده از آزمایش ها بر روی مجموعه داده های مختلف نشان دهنده تاثیر متفاوت سطوح نویز بر عملکرد این الگوریتم ها است و مشخص می سازد که برخی مدل ها در برابر نویز برچسب مقاوم تر از سایرین هستند. یافته های این مطالعه برای کاربردهایی که به طور ذاتی با داده های برچسب دار پرخطا سروکار دارند، مانند تحلیل داده های پزشکی (که ممکن است به دلیل خطای انسانی یا عدم قطعیت متخصص برچسب ناپاک داشته باشند) و واقعیت صنعتی (مانند تشخیص تقلب و پولشویی در داده های مالی)، اهمیت ویژه ای دارد.

نویسندگان

سوسن صفدری

دانشکده برق و کامپیوتر ، دانشگاه صنعتی اصفهان ، اصفهان ، ایران