یک رویکرد مبتنی بر نمونه برداری برای خوشه بندی کلان داده ها با استفاده از K-means

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 12

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICIRT01_063

تاریخ نمایه سازی: 9 آذر 1404

چکیده مقاله:

امروزه کلان داده ها در بسیاری از زمینه های تحقیقاتی موثر بر دانش بشری مانند، پزشکی، مهندسی و علوم کاربردی دارند. خوشه بندی از ابزارهای کلیدی در تحلیل انواع مختلف داده ها، به ویژه کلان داده ها شناخته می شود. در میان الگوریتم های خوشه بندی، K-means به دلیل سادگی و کارایی بالا از محبوبیت ویژه ای برخوردار است. با این حال عملکرد این الگوریتم به اندازه مجموعه داده وابسته بوده و در مواجهه با کلان داده ها همگرایی آن کند شده و عملکردش نیز ضعیف می شود. حساسیت بالای K-means نسبت به مقداردهی اولیه مراکز خوشه می تواند منجر به دام افتادن آن در بهینه های محلی شود. از این رو در این مقاله روش خوشه بندی جدیدی برای کلان داده ها ارائه می شود که از روش پایه ای K-means استفاده می کند. ویژگی اصلی روش پیشنهادی، استفاده از تکنیک نمونه برداری است که به جای استفاده از تمام داده ها، با زیر مجموعه ای از آن ها سروکار دارد. بر این اساس روش پیشنهادی به طور یکنواخت زیر مجموعه ای از داده ها با اندازه مشخص را انتخاب کرده و K-means را روی آن اعمال می کند. طی این فرآیند تکراری، هر موقع بهبودی در مقادیر تابع هدف مشاهده شود، مراکز حاصل از K-means به عنوان مراکز خوشه های آغازین زیر مجموعه بعدی انتخاب می شوند. برای ارزیابی عملکرد روش پیشنهادی، از ۴ کلان داده دنیای واقعی استفاده شده و نتایج آن با الگوریتم های Forgy K-means و ++K-means مقایسه شده است. نتایج حاصل نشان می دهند روش پیشنهادی برحسب معیارهای Rand Index و زمان محاسباتی روی ۷۵ درصد داده ها عملکرد بهتری نسبت به سایر الگوریتم ها ارائه کرده است.

نویسندگان

کاظم طلایی

دکتری ریاضی کاربردی، دانشگاه سیستان و بلوچستان، زاهدان، ایران

امین راحتی

گروه ریاضی، دانشگاه بوعلی سینا، همدان، ایران