میزان همگرایی روش های تشخیص داده های دورافتاده به کمک نرم افزار متن باز Rapidminer
سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 559
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CCESI01_003
تاریخ نمایه سازی: 5 بهمن 1395
چکیده مقاله:
داده کاوی که به معنای کاوش داده از حجم انبوهی از داده های نیمه ساختار یافته و یا غیرساختاریافته است. یکی از چالش های این حوزه که رسیدن به مدلی صحیح را تحت الشعاع قرار می دهد بروز آنومالی و یا داده پرت در دیتاست و عدم شناسایی دقیق و کامل آن هاست. استخراج داده های دور افتاده (تشخیص ناهنجاری) در پایگاه های داده بزرگ همچنان یک فضای فعال برای تحقیقات در حوزه ی داده کاوی باقی مانده است. تشخیص داده های دورافتاده می تواند خطاهای سیستم را شناسایی کند و اثرات مخرب آنها را در مجموعه داده ها و خصوصاً در مدل کردن داده ها حذف کند و همچنین داده ها را برای پردازش پاکسازی نماید. روش های متفاوتی برای تشخیص داده های دورهافتاده و آنومالی در داده ها وجود دارد که هریک با الگوریتمی متفاوت به یافتن داده های دورافتاده در یک دیتاست می پردازند. از جمله مشکلات شناسایی داده های دور افتاده، بسط الگوریتم های شناسایی این داده ها متناسب با کاربرد مورد نظر و همچنین عدم همپوشانی دقیق خروجی حاصل از اعمال الگوریتم های شناسایی داده های دورافتاده با یکدیگر است. در این مقاله، میزان همگرایی چند روش تشخیص آنومالی با یکدیگر تحت مدلی پیشنهادی مبتنی بر روش خوشه بندی K-Means از نظر میزان توانایی آنها در یافتن تعداد بیشتری داده ی دورافتاده در بستر نرم افزار داده کاوی متن باز RapidMiner آزمایش و با یکدیگر مقایسه شده است.
کلیدواژه ها:
نویسندگان
مریم رهروان
کارشناسی ارشد مهندسی کامپیوتر، نرم افزار، سرپرست بخش کامپیوتر
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :