بهبود الگوریتم تجمیع تغییرداده انتخابی برای طبقه بندی جریان داده های نامتعادل و غیرایستان

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 648

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CECCONF10_003

تاریخ نمایه سازی: 6 شهریور 1399

چکیده مقاله:

در سال های اخیر شاهد توجه چشمگیری در حوزه ی کاوش جریان داده بوده ایم. مدل های جریان داده در محیط های پویا عمل می کنند، که اقلام داده با حجم بی نهایت در طول زمان جمع آوری می شوند. یکی از مهمترین ویژگی های جریان داده ها رانش مفهوم هست. علاوه بر حجم بالا و رانش مفهوم، عدم تعادل کلاس یک مسئله پیچیده در زمینه کاوش جریان داده است. اگر چه این دو مسئله، یعنی یادگیری رانش مفهوم و یادگیری از داده های نامتعادل، به طور جداگانه مورد مطالعه قرار گرفته اند، اما پژوهش های زیادی در مورد این مسائل، زمانی که هر دو عدم تعادل کلاس و رانش مفهوم وجود دارد بحث نمی کنند. در ضمن، بسیاری از روش های موجود، تاثیر عوامل دشواری داده روی یادگیری جریان داده های نامتعادل را نادیده گرفته اند. یکی از کاراترین و جدیدترین الگوریتم ها در این زمینه، روش تجمیع تغییر داده مبتنی بر انتخاب (SRE) هست که هدف آن یادگیری جریان داده های نامتعادل و غیرایستان است. با این حال این روش نقاط ضعفی دارد از جمله زمانیکه با کمبود داده های اقلیت مواجه می شویم، که باعث نادیده گرفتن عوامل دشواری داده و رانش می شود. با بهره گیری از این روش در این پژوهش روشی جدید برای این مسئله بیان کرده ایم که برای شناسایی دقیق تر کلاس اقلیت از الگوریتم SMOTE استفاده کرده ایم. ارزیابی انجام شده بر روی مجموعه داده های مصنوعی و واقعی نشان می دهد که در مقایسه با رویکردهای موجود، رویکرد ما در معیار ارزیابی G_mean روی هر دو مجموعه داده بهتر عمل می کند که میزان آن در مجموعه داده Elec=0.79 ،HYPER=0.81 و می تواند به طور قابل توجهی بهبود عملکرد در پیش بینی صحیح کلاس اقلیت و همچنین کلاس اکثریت داشته باشد.

کلیدواژه ها:

طبقه بندی جریان داده ها ، رانش مفهوم ، عدم تعادل کلاس ، تجمیع

نویسندگان

افسانه تاجیک

دانشگاه بین المللی امام رضا(ع)

عادل قاضی خانی

دانشگاه بین المللی امام رضا(ع)