تشخیص موثر و مقیاس پذیر داده های پرت در مجموعه داده های توزیع شده بسیار بزرگ با داشتن انواع داده متفاوت

  • سال انتشار: 1398
  • محل انتشار: ششمین کنفرانس ملی علوم و مهندسی کامپیوتر و فناوری اطلاعات
  • کد COI اختصاصی: CECCONF06_019
  • زبان مقاله: فارسی
  • تعداد مشاهده: 536
دانلود فایل این مقاله

نویسندگان

فاطمه جوکار

گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران

امین کشاورزی

گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران

چکیده

مسئله بسیار مهمی که غالبا در زمان تحلیل داده رخ می دهد، تشخیص نقاط داده نامنظم یا نامتعارفی است که اصطلاحا به آنها داده های پرت 1 می گویند. این مسئله تحت دو شرط بیشتر خود را نشان می دهد که یکی زمانیست که داده های پرت قبل از تحلیل داده می بایست از مجموعه داده حذف شوند و یکی زمانی است که اطلاعات مفید و دانش می تواند با استفاده از همین داده های پرت استخراج شوند. تشخیص داده های پرت در محتوای شرط دوم، توجه محققان بسیاری را به خود جلب کرده است و در برنامه های کاربردی بسیاری نیز مورد استفاده قرار گرفته است. برای مثال در داده های تراکنشی کارت های اعتباری، داده های پرت ممکن است مشخص کننده کلاه برداری های مالی بالقوه باشند. یا در ترافیک داده های شبکه، داده های پرت ممکن است مشخص کننده تلاش های بالقوه برای نفوذ غیر مجاز به شبکه باشند. در این پایان نامه ما روشی ابتکاری ارائه می کنیم که بتواند بصورت موثری بر روی مجموعه داده های توزیع شده بزرگی که حاوی داده هایی با انواع مختلف هستند کار کند. به طور دقیق تر، ما در ابتدا ما روشی سریع و مقیاس پذیر برای داده های دسته بندی شده 2 ارائه می کنیم و نسخه موازی شده آن را که مبتنی بر نگاشت کاهش 3 م یباشد معرفی می کنیم. در ادامه روش خود را گسترش داده و یک روش تشخیص داده های پرت سریع برای مجموعه داده های توزیع شده 4 بزرگ با انواع داده های متفاوت پیشنهاد می کنیم. در نهایت روش خود را به گونه ای تغییر می دهیم که بتواند به جواب قابل قبولی بر روی داده های دسته بندی شده با ابعاد دسته بندی بسیار بالا نیز دست یابد.

کلیدواژه ها

مجموعه داده های توزیع شده، مجموعه داده های طبقه بندی شده، مجموعه داده های

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.