یک رویکرد مبتنی بر نمونه برداری برای خوشه بندی کلان داده ها با استفاده از K-means

  • سال انتشار: 1404
  • محل انتشار: کنفرانس بین المللی هوش مصنوعی و فناوری های مرتبط
  • کد COI اختصاصی: ICIRT01_063
  • زبان مقاله: فارسی
  • تعداد مشاهده: 13
دانلود فایل این مقاله

نویسندگان

کاظم طلایی

دکتری ریاضی کاربردی، دانشگاه سیستان و بلوچستان، زاهدان، ایران

امین راحتی

گروه ریاضی، دانشگاه بوعلی سینا، همدان، ایران

چکیده

امروزه کلان داده ها در بسیاری از زمینه های تحقیقاتی موثر بر دانش بشری مانند، پزشکی، مهندسی و علوم کاربردی دارند. خوشه بندی از ابزارهای کلیدی در تحلیل انواع مختلف داده ها، به ویژه کلان داده ها شناخته می شود. در میان الگوریتم های خوشه بندی، K-means به دلیل سادگی و کارایی بالا از محبوبیت ویژه ای برخوردار است. با این حال عملکرد این الگوریتم به اندازه مجموعه داده وابسته بوده و در مواجهه با کلان داده ها همگرایی آن کند شده و عملکردش نیز ضعیف می شود. حساسیت بالای K-means نسبت به مقداردهی اولیه مراکز خوشه می تواند منجر به دام افتادن آن در بهینه های محلی شود. از این رو در این مقاله روش خوشه بندی جدیدی برای کلان داده ها ارائه می شود که از روش پایه ای K-means استفاده می کند. ویژگی اصلی روش پیشنهادی، استفاده از تکنیک نمونه برداری است که به جای استفاده از تمام داده ها، با زیر مجموعه ای از آن ها سروکار دارد. بر این اساس روش پیشنهادی به طور یکنواخت زیر مجموعه ای از داده ها با اندازه مشخص را انتخاب کرده و K-means را روی آن اعمال می کند. طی این فرآیند تکراری، هر موقع بهبودی در مقادیر تابع هدف مشاهده شود، مراکز حاصل از K-means به عنوان مراکز خوشه های آغازین زیر مجموعه بعدی انتخاب می شوند. برای ارزیابی عملکرد روش پیشنهادی، از ۴ کلان داده دنیای واقعی استفاده شده و نتایج آن با الگوریتم های Forgy K-means و ++K-means مقایسه شده است. نتایج حاصل نشان می دهند روش پیشنهادی برحسب معیارهای Rand Index و زمان محاسباتی روی ۷۵ درصد داده ها عملکرد بهتری نسبت به سایر الگوریتم ها ارائه کرده است.

کلیدواژه ها

خوشه بندی, کلان داده, K-means, نمونه برداری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.