دادهکاوی مجموعه دادههای نامتعادل

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,334

فایل این مقاله در 12 صفحه با فرمت PDF و WORD قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

NCOEM02_077

تاریخ نمایه سازی: 4 مهر 1396

چکیده مقاله:

استنتاج مجموعه داده های نامتعادل، مسیله بسیار مهمی از لحاظ کارایی و الگوریتمی می باشد. به طوری که کلاس نامتعادل در بسیاری از حوزه های کاربردی دنیای واقعی اختلال ایجاد کرده و در سالهای اخیر به عنوان یک بحث داغ در ماشین یادگیری شناخته شده است. در داده کاوی، کلاس نامتعادل زمانی که نمونه های آموزشی یک کلاس در مقابل کلاس های دیگر بسیار کمتر است رخ می دهد. اکثر الگوریتم های ماشین یادگیری سنتی دسته بند مدل استنتاجی را بر اساس کلاس اکثریت یاد می گیرند و نمونه های کلاس اقلیت را نادیده می گیرند در حالی که تشخیص درست نمونه های کلاس اقلیت از نظر یادگیری از ارزش بالاتری برخوردار است. معیار دقت یکی از مشهورترین معیارکارایی دسته بند می باشد اما زمانی که مجموعه داده نامتعادل / هزینه خطاهای مختلف مشخص نیست ممکن است مناسب نباشد. از اینرو، تلاش های بسیاری برای مقابله و متعادل کردن مجموعه داده های نامتعادل صورت گرفته است که می توان رویکردهای آنها را در سه سطح؛ رویکردهایی در سطح داده ای، رویکردهای سطح الگوریتمی و یادگیری حساس به هزینه طبقه بندی کرد. هدف این مقاله، تشریح برخی از این رویکردها و مزایا و معایب هر کدام برای متعادل کردن مجموعه داده ها و برخی معیارهای ارزیابی کارایی مناسب برای مجموعه داده های نامتعادل می باشد.

کلیدواژه ها:

دسته بندی ، کلاس نامتعادل ، معیار حساس به هزینه ، داده کاوی

نویسندگان

زهرا بچه نو

موسسه آموزش عالی مهرآستان، بلوار دانشگاه، آستانهاشرفیه، گیلان، ایران

زهرا همتی

دانشجوی کارشناسی ارشد موسسه آموزش عالی پویندگان دانش چالوس-فناوری اطلاعات