CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

تشخیص موثر و مقیاس پذیر داده های پرت در مجموعه داده های توزیع شده بسیار بزرگ با داشتن انواع داده متفاوت

عنوان مقاله: تشخیص موثر و مقیاس پذیر داده های پرت در مجموعه داده های توزیع شده بسیار بزرگ با داشتن انواع داده متفاوت
شناسه ملی مقاله: CECCONF06_019
منتشر شده در ششمین کنفرانس ملی علوم و مهندسی کامپیوتر و فناوری اطلاعات در سال 1398
مشخصات نویسندگان مقاله:

فاطمه جوکار - گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران
امین کشاورزی - گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران

خلاصه مقاله:
مسئله بسیار مهمی که غالبا در زمان تحلیل داده رخ می دهد، تشخیص نقاط داده نامنظم یا نامتعارفی است که اصطلاحا به آنها داده های پرت 1 می گویند. این مسئله تحت دو شرط بیشتر خود را نشان می دهد که یکی زمانیست که داده های پرت قبل از تحلیل داده می بایست از مجموعه داده حذف شوند و یکی زمانی است که اطلاعات مفید و دانش می تواند با استفاده از همین داده های پرت استخراج شوند. تشخیص داده های پرت در محتوای شرط دوم، توجه محققان بسیاری را به خود جلب کرده است و در برنامه های کاربردی بسیاری نیز مورد استفاده قرار گرفته است. برای مثال در داده های تراکنشی کارت های اعتباری، داده های پرت ممکن است مشخص کننده کلاه برداری های مالی بالقوه باشند. یا در ترافیک داده های شبکه، داده های پرت ممکن است مشخص کننده تلاش های بالقوه برای نفوذ غیر مجاز به شبکه باشند. در این پایان نامه ما روشی ابتکاری ارائه می کنیم که بتواند بصورت موثری بر روی مجموعه داده های توزیع شده بزرگی که حاوی داده هایی با انواع مختلف هستند کار کند. به طور دقیق تر، ما در ابتدا ما روشی سریع و مقیاس پذیر برای داده های دسته بندی شده 2 ارائه می کنیم و نسخه موازی شده آن را که مبتنی بر نگاشت کاهش 3 م یباشد معرفی می کنیم. در ادامه روش خود را گسترش داده و یک روش تشخیص داده های پرت سریع برای مجموعه داده های توزیع شده 4 بزرگ با انواع داده های متفاوت پیشنهاد می کنیم. در نهایت روش خود را به گونه ای تغییر می دهیم که بتواند به جواب قابل قبولی بر روی داده های دسته بندی شده با ابعاد دسته بندی بسیار بالا نیز دست یابد.

کلمات کلیدی:
مجموعه داده های توزیع شده، مجموعه داده های طبقه بندی شده، مجموعه داده های

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/859080/