تشخیض داده های پرت با استفاده از بهبود عملکرد الگوریتم تشخیض داده های خاص با استفاده از برچسب مثبت

  • سال انتشار: 1395
  • محل انتشار: کنفرانس ملی دانش و فناوری علوم مهندسی ایران
  • کد COI اختصاصی: MGCONF01_099
  • زبان مقاله: فارسی
  • تعداد مشاهده: 303
دانلود فایل این مقاله

نویسندگان

حسن آقازاده

کارشناسی ارشد مهندسی فناوری اطلاعات، دانشگاه آزاد اسلامی، واحد صفاشهر

چکیده

همواره یکی از مهمترین دغدغه های داده کاوان در اختیار داشتن داده هایی صحیح و عاری از خطاست. داده هایی که اشتباهات انسانی در آ وجود نداشته و رکوردهای آن تماما پر و حاوی داده هایی صحیح باشند. اما واضح است که چنین مجموعه ی داده ای در سطح بسیار کوچک هم قابل دسترسی نخواهد بود. حال آنکه داده کاوان معمولا با مجموعه داده های عظیم کار خواهند کرد. در تمامی مطالعات وجود داده نامتعارف و دور افتاده از مسایل مشکل ساز در تجزیه و تحلیل نتایج هست. داده نامتعارف داده ای است که به قدری از سایر مشاهدات انحراف داشته باشد که این گمان را به وجود می آورد که با مکانیزم متفاوتی ایجاد شده است. تکنیک های شناسایی داده نامتعارف را بر اساس داده بر چسب دار می توان به سه گروه تقسیم کرد. در تکنیک های نظارتی شناسایی داده نامتعارف، داده آموزشی حاوی نمونه های برچسب دار برای هر دو دسته نرمال و نامتعارف است. در تکنیک های نیمه نظارتی، داده آموزشی برچسب داری موجود نیست. در بین تکنیک های شناسایی داده نامتعارف، تکنیک های غیرنظارتی و تکنیک های نیمه نظارتی با نمونه های نرمال برچسب دار برای آموزش، از عمومیت بیشتری برخوردارند. در این پژوهش برای یافتن نقاط خاص و نامتعارف در سه مجموعه داده سرطان سینه، بازیکنان بستکتبال NBA و باغ وحش از ترکیب دو روش جهت یافتن داده های نامتعارف به صورت نیمه نظارتی و یافتن تشابه بین داده های برچسب دار موجود و داده های بدون برچسب با استفاده از تابع زنگوله ای پس از پیش پردازش های اولیه استفاده شده است. برای ارزیابی این روش پیشنهادی از معیارهای آخرین رتبه، میانه، میانگین و انحراف معیار استفاده شده است که با مقایسه نتایج این روش با الگوریتم پایه بهبود نتایج به صورت نسبی دیده شده است.

کلیدواژه ها

داده های نامتعارف، داده های برچسب دار، تکنیک های شناسایی، الگوریتم پایه، تابع زنگوله ای، شناسایی داده

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.