تشخیص موثر و مقیاس پذیر داده های پرت در مجموعه داده های توزیع شده بسیار بزرگ با داشتن انواع داده متفاوت

فاطمه جوکار; امین کشاورزی

تشخیص موثر و مقیاس پذیر داده های پرت در مجموعه داده های توزیع شده بسیار بزرگ با داشتن انواع داده متفاوت

محل انتشار: ششمین کنفرانس ملی علوم و مهندسی کامپیوتر و فناوری اطلاعات

سال انتشار: 1398

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 812

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/859080

شناسه ملی سند علمی:

CECCONF06_019

تاریخ نمایه سازی: 7 خرداد 1398

چکیده مقاله:

مسئله بسیار مهمی که غالبا در زمان تحلیل داده رخ می دهد، تشخیص نقاط داده نامنظم یا نامتعارفی است که اصطلاحا به آنها داده های پرت 1 می گویند. این مسئله تحت دو شرط بیشتر خود را نشان می دهد که یکی زمانیست که داده های پرت قبل از تحلیل داده می بایست از مجموعه داده حذف شوند و یکی زمانی است که اطلاعات مفید و دانش می تواند با استفاده از همین داده های پرت استخراج شوند. تشخیص داده های پرت در محتوای شرط دوم، توجه محققان بسیاری را به خود جلب کرده است و در برنامه های کاربردی بسیاری نیز مورد استفاده قرار گرفته است. برای مثال در داده های تراکنشی کارت های اعتباری، داده های پرت ممکن است مشخص کننده کلاه برداری های مالی بالقوه باشند. یا در ترافیک داده های شبکه، داده های پرت ممکن است مشخص کننده تلاش های بالقوه برای نفوذ غیر مجاز به شبکه باشند. در این پایان نامه ما روشی ابتکاری ارائه می کنیم که بتواند بصورت موثری بر روی مجموعه داده های توزیع شده بزرگی که حاوی داده هایی با انواع مختلف هستند کار کند. به طور دقیق تر، ما در ابتدا ما روشی سریع و مقیاس پذیر برای داده های دسته بندی شده 2 ارائه می کنیم و نسخه موازی شده آن را که مبتنی بر نگاشت کاهش 3 م یباشد معرفی می کنیم. در ادامه روش خود را گسترش داده و یک روش تشخیص داده های پرت سریع برای مجموعه داده های توزیع شده 4 بزرگ با انواع داده های متفاوت پیشنهاد می کنیم. در نهایت روش خود را به گونه ای تغییر می دهیم که بتواند به جواب قابل قبولی بر روی داده های دسته بندی شده با ابعاد دسته بندی بسیار بالا نیز دست یابد.

کلیدواژه ها:

مجموعه داده های توزیع شده ، مجموعه داده های طبقه بندی شده ، مجموعه داده های

نویسندگان

فاطمه جوکار

گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران

امین کشاورزی

گروه مهندسی کامپیوتر، واحد مرودشت، دانشگاه آزاد اسلامی، مرودشت، ایران