تشخیض داده های پرت با استفاده از بهبود عملکرد الگوریتم تشخیض داده های خاص با استفاده از برچسب مثبت

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 292

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

MGCONF01_099

تاریخ نمایه سازی: 11 مرداد 1396

چکیده مقاله:

همواره یکی از مهمترین دغدغه های داده کاوان در اختیار داشتن داده هایی صحیح و عاری از خطاست. داده هایی که اشتباهات انسانی در آ وجود نداشته و رکوردهای آن تماما پر و حاوی داده هایی صحیح باشند. اما واضح است که چنین مجموعه ی داده ای در سطح بسیار کوچک هم قابل دسترسی نخواهد بود. حال آنکه داده کاوان معمولا با مجموعه داده های عظیم کار خواهند کرد. در تمامی مطالعات وجود داده نامتعارف و دور افتاده از مسایل مشکل ساز در تجزیه و تحلیل نتایج هست. داده نامتعارف داده ای است که به قدری از سایر مشاهدات انحراف داشته باشد که این گمان را به وجود می آورد که با مکانیزم متفاوتی ایجاد شده است. تکنیک های شناسایی داده نامتعارف را بر اساس داده بر چسب دار می توان به سه گروه تقسیم کرد. در تکنیک های نظارتی شناسایی داده نامتعارف، داده آموزشی حاوی نمونه های برچسب دار برای هر دو دسته نرمال و نامتعارف است. در تکنیک های نیمه نظارتی، داده آموزشی برچسب داری موجود نیست. در بین تکنیک های شناسایی داده نامتعارف، تکنیک های غیرنظارتی و تکنیک های نیمه نظارتی با نمونه های نرمال برچسب دار برای آموزش، از عمومیت بیشتری برخوردارند. در این پژوهش برای یافتن نقاط خاص و نامتعارف در سه مجموعه داده سرطان سینه، بازیکنان بستکتبال NBA و باغ وحش از ترکیب دو روش جهت یافتن داده های نامتعارف به صورت نیمه نظارتی و یافتن تشابه بین داده های برچسب دار موجود و داده های بدون برچسب با استفاده از تابع زنگوله ای پس از پیش پردازش های اولیه استفاده شده است. برای ارزیابی این روش پیشنهادی از معیارهای آخرین رتبه، میانه، میانگین و انحراف معیار استفاده شده است که با مقایسه نتایج این روش با الگوریتم پایه بهبود نتایج به صورت نسبی دیده شده است.

نویسندگان

حسن آقازاده

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشگاه آزاد اسلامی، واحد صفاشهر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Collett, D. (1980). Outliers in circular data. Applied Statistics, 50-57. ...
  • Hawkins, D. M. (1980). Identification of outliers (Vol. 11). London: ...
  • Kriegel, H. P., Kroger, P., & Zimek, A. (2010). Outlier ...
  • - Al-Zoubi, M. D. B., Ali, A. D., & Yahya, ...
  • Japkowicz, N., Myers, C., & Gluck, M. (1995, August). A ...
  • Breunig, M. M., Kriegel, H. P., Ng, R. T., & ...
  • P apadimitriou, S., Kitagawa, H., Gibbons, P. B., & Faloutsos, ...
  • Kriegel, H. P., Kroger, P., Schubert, E., & Zimek, A. ...
  • probabilities. In Proceedings of the 18th ACM conference on Information ...
  • Radovanovic, M., Nanopoulos, A., & Ivanovic, M. (2015). Reverse nearest ...
  • Kiware, S. S. (2010). Detection of outliers in time series ...
  • Cote, M. A., Garyfallidis, E., Larochelle, H., & Descoteaux, M. ...
  • Jiang, F., Liu, G., Du, J., & Sui, Y. (2016). ...
  • Huang, J., Zhu, Q., Yang, L., & Feng, J. (2016). ...
  • Aggarwal, C. C. (2015). Outlier analysis. In Data Mining (pp. ...
  • Algur, S. P., & Bhat, P. (2016). Abnormal Web Video ...
  • Matuzevicius, D., Serackis, A., & Navakauskas, D. (2015). Mathematical models ...
  • https ://en. wikipedia. org/wiki/Gau s sian_function ...
  • نمایش کامل مراجع