بررسی داده کاوی توزیع شده با الگوریتم k-means

  • سال انتشار: 1393
  • محل انتشار: همایش ملی الکترونیکی دستاوردهای نوین در علوم مهندسی و پایه
  • کد COI اختصاصی: AEBSCONF01_247
  • زبان مقاله: فارسی
  • تعداد مشاهده: 2028
دانلود فایل این مقاله

نویسندگان

نجمه تقی زاده

دانشجوی کارشناسی ارشد فناوری اطلاعات دانشگاه قم

لاله مداح علی

دانشجوی کارشناسی ارشد فناوری اطلاعات دانشگاه قم

محبوبه شمسی

عضو هیئت علمی گروه مهندسی برق و کامپیوتر دانشگاه صنعتی قم

علیرضا آراسته

فارغ التحصیل مهندسی نرم افزار دانشگاه پیام نور مرکز قم

چکیده

اکثر الگوریتم های خوشه بندی نیاز به داده های متمرکز دارند، اما این الگوریتم ها با توسعه اینترنت و در برخورد با داده های توزیع شده، با دو چالش روبرو شدند. اول، حجم داده های تولید شده حتی برای ابر کامپیوترها هم خیلی زیاد شده است. دوم، داده ها در چندین مکان ذخیره شده اند و متمرکزکردن آنها در یک جا بسیار پرهزینه خواهد بود. هم چنین محدودیت پهنای باند و حریم شخصی نیز از نگرانی ها و موانع متمرکز سازی داده می باشد. به همین دلیل برای حل این مشکلات، داده کاوی توزیع شده یک حوزه تحقیقاتی پرطرفدار شده است. یکی از الگوریتم های خوشه بندی، الگوریتم کامینز است که به عنوان یکی از با نفوذترین الگوریتم های داده کاوی مورد استفاده قرار می گیرد و بسیار ساده و مقیاس پذیر است. در سال های اخیر نسخه هایی از این الگوریتم انتشار یافته است که می تواند در برخورد با داده های توزیع شده، به خوبی عمل کرده و نتایج خوبی را ارائه دهد. در این الگوریتم ها، نیازی به جمع آوری کردن اطلاعات و داده ها در یک مجموعه متمرکز نیست، در این مقاله قصد داریم که این الگوریتم ها را معرفی و بررسی کنیم.

کلیدواژه ها

داده کاوی توزیع شده، خوشه بندی، الگوریتم کامنیز، الگوریتم کامینز توزیع شده، نرمال سازی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.