میزان همگرایی روش های تشخیص داده های دورافتاده به کمک نرم افزار متن باز Rapidminer

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 504

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CCESI01_003

تاریخ نمایه سازی: 5 بهمن 1395

چکیده مقاله:

داده کاوی که به معنای کاوش داده از حجم انبوهی از داده های نیمه ساختار یافته و یا غیرساختاریافته است. یکی از چالش های این حوزه که رسیدن به مدلی صحیح را تحت الشعاع قرار می دهد بروز آنومالی و یا داده پرت در دیتاست و عدم شناسایی دقیق و کامل آن هاست. استخراج داده های دور افتاده (تشخیص ناهنجاری) در پایگاه های داده بزرگ همچنان یک فضای فعال برای تحقیقات در حوزه ی داده کاوی باقی مانده است. تشخیص داده های دورافتاده می تواند خطاهای سیستم را شناسایی کند و اثرات مخرب آنها را در مجموعه داده ها و خصوصاً در مدل کردن داده ها حذف کند و همچنین داده ها را برای پردازش پاکسازی نماید. روش های متفاوتی برای تشخیص داده های دورهافتاده و آنومالی در داده ها وجود دارد که هریک با الگوریتمی متفاوت به یافتن داده های دورافتاده در یک دیتاست می پردازند. از جمله مشکلات شناسایی داده های دور افتاده، بسط الگوریتم های شناسایی این داده ها متناسب با کاربرد مورد نظر و همچنین عدم همپوشانی دقیق خروجی حاصل از اعمال الگوریتم های شناسایی داده های دورافتاده با یکدیگر است. در این مقاله، میزان همگرایی چند روش تشخیص آنومالی با یکدیگر تحت مدلی پیشنهادی مبتنی بر روش خوشه بندی K-Means از نظر میزان توانایی آنها در یافتن تعداد بیشتری داده ی دورافتاده در بستر نرم افزار داده کاوی متن باز RapidMiner آزمایش و با یکدیگر مقایسه شده است.

کلیدواژه ها:

الگوریتم های خوشه بندی ، تشخیص آنومالی ، تشخیص داده های دورافتاده ، داده کاوی

نویسندگان

مریم رهروان

کارشناسی ارشد مهندسی کامپیوتر، نرم افزار، سرپرست بخش کامپیوتر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • اسماعیلی، مهدی (1391). مفاهیم و تکنیک های داده کاوی. دانشگاه ...
  • بابایی، غلامرضا (1386). روش های تعیین داده های پرت در ...
  • توکلی زاده راوری، محمد؛ نجابتیان، مریم (1389). خوشه بندی مبتنی ...
  • حاجی حیدری، نسرین 4خاکباز، سیدبهنام _ (2 39 1)، داده ...
  • دیانی، محمد حسین (1381). داده پردازی برای کتابداران و اطلاع ...
  • صنیعی آباده، محمد؛ محمودی، سیناه طاهرپور، محدثه (1393). داده کاوی ...
  • فرمانی اردهائی، راضیه (1390). کاربرد رگرسیون مولفه های اصلی برای ...
  • محمدزاده، محسن (1380). روشهای شناسایی داده های دور افتاده فضایی، ...
  • مزدک، زینب؛ پیوندی، پدرام؛ علمداری یزدی، علی اصغر (1391). استخراج ...
  • Aleksandar Lazarevic, Aysel Ozgur, Levent Ertoz, Jaideep Srivastava, Vipin Kumar. ...
  • _ HARUC. AGGRWAL. (2012). OUTLIER ANALYSIS, IBM T . J. ...
  • Gao Zengan. (2009). Application of Cluster-Based Local Outlier Factor Algorithm ...
  • Gerhard Munz, Sa Li, Georg Carle. (2007). Traffic Anomaly Detection ...
  • Pei Sun Sanjay Chawla Bavani Arunasalam. (2006). Mining for Outliers ...
  • Prasanta Gogoi1, D.K Bhattacha ryya1, B.Borah1. (2011). A Survey of ...
  • Post-Doctoral Station of Theoretical Economics. (2004). China Center for Anti-Money ...
  • Victoria J. Hodge and Jim Austin. (2004). A Survey of ...
  • نمایش کامل مراجع