CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

میزان همگرایی روش های تشخیص داده های دورافتاده به کمک نرم افزار متن باز Rapidminer

عنوان مقاله: میزان همگرایی روش های تشخیص داده های دورافتاده به کمک نرم افزار متن باز Rapidminer
شناسه ملی مقاله: CCESI01_003
منتشر شده در اولین مسابقه کنفرانس بین المللی جامع علوم مهندسی در ایران در سال 1395
مشخصات نویسندگان مقاله:

مریم رهروان - کارشناسی ارشد مهندسی کامپیوتر، نرم افزار، سرپرست بخش کامپیوتر

خلاصه مقاله:
داده کاوی که به معنای کاوش داده از حجم انبوهی از داده های نیمه ساختار یافته و یا غیرساختاریافته است. یکی از چالش های این حوزه که رسیدن به مدلی صحیح را تحت الشعاع قرار می دهد بروز آنومالی و یا داده پرت در دیتاست و عدم شناسایی دقیق و کامل آن هاست. استخراج داده های دور افتاده (تشخیص ناهنجاری) در پایگاه های داده بزرگ همچنان یک فضای فعال برای تحقیقات در حوزه ی داده کاوی باقی مانده است. تشخیص داده های دورافتاده می تواند خطاهای سیستم را شناسایی کند و اثرات مخرب آنها را در مجموعه داده ها و خصوصاً در مدل کردن داده ها حذف کند و همچنین داده ها را برای پردازش پاکسازی نماید. روش های متفاوتی برای تشخیص داده های دورهافتاده و آنومالی در داده ها وجود دارد که هریک با الگوریتمی متفاوت به یافتن داده های دورافتاده در یک دیتاست می پردازند. از جمله مشکلات شناسایی داده های دور افتاده، بسط الگوریتم های شناسایی این داده ها متناسب با کاربرد مورد نظر و همچنین عدم همپوشانی دقیق خروجی حاصل از اعمال الگوریتم های شناسایی داده های دورافتاده با یکدیگر است. در این مقاله، میزان همگرایی چند روش تشخیص آنومالی با یکدیگر تحت مدلی پیشنهادی مبتنی بر روش خوشه بندی K-Means از نظر میزان توانایی آنها در یافتن تعداد بیشتری داده ی دورافتاده در بستر نرم افزار داده کاوی متن باز RapidMiner آزمایش و با یکدیگر مقایسه شده است.

کلمات کلیدی:
الگوریتم های خوشه بندی، تشخیص آنومالی، تشخیص داده های دورافتاده، داده کاوی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/545014/