یک روش کارآمد مبتنی بر درختهای جداساز برای شناسایی دادههای پرت درجریا ن داده ها
محل انتشار: دومین کنفرانس ملی محاسبات نرم و علوم شناختی
سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 102
فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
SCCS02_021
تاریخ نمایه سازی: 12 آبان 1403
چکیده مقاله:
شناسایی برخط داده های پرت در جریان داده ها یک مسئله مهم است که در سال های اخیر مورد توجه محققین قرار گرفته، و از آن برای شناسایی رویدادها و نمونه های غیرعادی در کاربردهای مختلف مانند صنعت برق، شبکه های اجتماعی، و اینترنت اشیاء استفاده می شود. در این حوزه، انتظار می رود که الگوریتم شناسایی داده های پرت سریع بوده، بتواند جریان داده های حجیم و بی پایان را پردازش کرده، خود را با تغییرات احتمالی توزیع داده ها در طول زمان مطابقت داده، و دقت بالایی در شناسایی داده های پرت داشته باشد. برای رسیدن به این اهداف، در این مقاله ما یک الگوریتم جدید و کارآمد به نام EIForestASD معرفی خواهیم کرد، که برای جداسازی داده های پرت از داده های عادی از یک جنگل از درختان جداساز استفاده می کند. مدل آشکارساز در روش پیشنهادی در طول زمان با داده های جدید تطبیق داده می شود، و در صورت وقوع پدیده تغییر مفهوم، تنها درخت هایی از مدل آشکارساز دور انداخته می شوند که با مفهوم جدید سازگار نباشند. روش پیشنهادی به کمک کتابخانه Scikit-Multiflow در زبان برنامه نویسی پایتون پیاده سازی شده و با الگوریتم پایه IForestASD مقایسه شده است. ارزیابی ها بر روی جریان داده های واقعی و مصنوعی نشان داد، که روش پیشنهادی EIForestASD نسبت به روش پایه IForestASD زمان مصرفی را تا ۱۲% کاهش می دهد. همچنین، مدیریت هوشمندانه تغییر مفهوم در روش پیشنهادی باعث شده است تا علاوه بر کاهش زمان مصرفی، نرخ دقت روش پیشنهادی EIForestASD در شناسایی داده های پرت تا ۷% از نرخ دقت الگوریتم پایه IForestASD بیشتر باشد.
کلیدواژه ها:
نویسندگان
خدیجه معین فر
دانشجوی کارشناسی ارشد، گروه مهندسی کامپیوتر، دانشگاه بجنورد
وحید کیانی
استادیار، گروه مهندسی کامپیوتر، دانشگاه بجنورد
آزاده سلطانی
استادیار، گروه مهندسی کامپیوتر، دانشگاه بجنورد