یک روش ترکیبی برای طبقه بندی داده های نامتوازن در سیستم تشخیص نفوذ

سال انتشار: 1401
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 181

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

COMPUTER07_042

تاریخ نمایه سازی: 6 اسفند 1401

چکیده مقاله:

طبقه بندی یکی از مسائل اصلی در زمینه یادگیری ماشین است. الگوریتم های یادگیری ماشین متداول فرض می کنند که تعدادنمونه های موجود در کلاس ها تقریبا یکسان است؛ اما در بسیاری از موقعیت ها در دنیای واقعی، توزیع نمونه ها در کلاس هایمختلف یکسان نیست. این مسئله باعث می شود تا الگوریتم های یادگیری بیشتر به سمت کلاس با نمونه های بیشتر متمایل شدهو عملکرد صحیحی نداشته باشند. از طرف دیگر، کلاس حداقل از چشم انداز داده کاوی برخلاف تعداد کم نمونه ها، بسیار حائزاهمیت و شامل دانش مفید هستند. داده های نامتوازن به داده هایی گفته می شود که در آنها یک یا چند کلاس دارای تعدادنمونه های خیلی بیشتر در مقایسه با دیگر کلاس ها هستند. کلاس با تعداد نمونه زیاد را کلاس حداکثر و کلاس با کمتریننمونه را کلاس حداقل می نامند. وقتی مشکل عدم توازن کلاس وجود دارد، اغلب نگرانی ها معطوف کلاس حداقل است چرا کههزینه طبقه بندی نادرست نمونه های کلاس حداقل بیشتر از سایر کلاس ها است. مجموعه داده های تشخیص نفوذ در دستهداده های نامتوازن قرار می گیرند که طبقه بندی نادرست آن ها می تواند منجر به خسارات جبران ناپذیری شود. در این مقالهیک روش ترکی بی برا ی طبقه بندی داده های نامتوازن در سیستم تشخیص نفوذ پیشنهاد شده است که ابتدا کلاس ها ی حداکث رو حداقل را جدا کرده و روی کلاس حداقل از روش های نمونه برداری افزایشی و روی کلاس حداقل از روش های نمونه برداریکاهشی استفاده می شود. سپس این دو کلاس با یکدیگر ترکیب و ادغام می شوند. در گام بعد کلاس ها با طبقه بند ترکیبیداده می شوند. در حقیقت، ابتدا از روش ترکیب موازی استفاده شده و سپس نتیجه به طبقه بند ترکیبی داده می شود که ایننوعی ترکیب ترتیبی است. بنابراین روش پیشنهادی ترکیب ترتیبی و ترکیب موازی را در کنار یکدیگر بکار می گیرد. روش پیشنهادی برحسب صحت، نرخ هشدار اشتباه و نرخ تشخیص با پنج روش دیگر مقایسه شده و نتایج حاکی از برتری روشپیشنهادی هستند. روش پیشنهادی به صحت ۹۹.۲۳ درصد و نرخ تشخیص ۹۸.۸۷ درصد دست یافته است که در مقایسه باروشی که با عدم توازن کلاس استفاده نکرده است (صحت ۹۶.۳۷ و نرخ تشخیص ۹۳.۳۵ ) صحت را به اندازه ۲.۸۶ درصد و نرختشخیص را به اندازه ۵.۵۲ درصد بهبود بخشیده است.

کلیدواژه ها:

داده های نامتوازن ، طبقه بند ترکیبی- نمونه برداری کاهشی- نمونه برداری افزایشی.

نویسندگان

موسی علیپور

دانشجوی کارشناسی ارشد نرم افزار، موسسه آموزش عالی خاوران.

مسعود نیازی ترشیز

گروه کامپیوتر، واحد مشهد، دانشگاه آزاد اسلامی، مشهد، ایران