معیار آرنج (Elbow Method)
مقدمه
در داده کاوی و یادگیری ماشین، انتخاب تعداد خوشه ها در الگوریتم های خوشه بندی مثل K-Means یک چالش اساسی است. اگر تعداد خوشه ها خیلی کم باشد، داده ها به درستی تفکیک نمی شوند؛ اگر خیلی زیاد باشد، مدل بیش ازحد پیچیده می شود. معیار آرنج روشی ساده و شهودی برای یافتن تعداد بهینه خوشه هاست.
تعریف: معیار آرنج (Elbow Method) یکی از روش های پرکاربرد در داده کاوی و خوشه بندی (به ویژه الگوریتم K-Means) است که برای تعیین تعداد بهینه ی خوشه ها استفاده می شود .
هدف
معیار آرنج به دنبال یافتن نقطه ای است که افزودن خوشه های بیشتر، بهبود قابل توجهی در کیفیت خوشه بندی ایجاد نکند. این نقطه همان "آرنج" منحنی است.
روش
- انتخاب الگوریتم خوشه بندی: معمولا از الگوریتم K-Means استفاده می کنیم که داده ها را به چند خوشه تقسیم می کند.
- اجرای الگوریتم: برای تعداد خوشه های مختلف الگوریتم را چند بار اجرا می کنیم؛ مثلا یک بار با k=2k=2، یک بار با k=3k=3، همین طور تا k=10k=10.
- محاسبه WCSS (Within-Cluster Sum of Squares): برای هر بار اجرا، مجموع فاصله ی نقاط از مرکز خوشه ها (WCSS) را حساب می کنیم. این عدد نشان می دهد داده ها چقدر خوب در خوشه ها قرار گرفته اند.
- رسم نمودار WCSS: بر حسب تعداد خوشه ها محور افقی = تعداد خوشه ها (kk) محور عمودی = مقدار WCSS
- پیدا کردن نقطه ی آرنج در نمودار: ابتدا با افزایش تعداد خوشه ها، WCSS خیلی سریع کم می شود. اما از یک نقطه به بعد، کاهش WCSS کند می شود. این نقطه همان آرنج منحنی است و تعداد خوشه ی بهینه را نشان می دهد.
مثال:
فرض کنید داده های مشتریان یک فروشگاه را خوشه بندی می کنیم:
- وقتی k=2k=2، WCSS خیلی زیاد است (چون همه ی مشتری ها فقط در دو گروه قرار گرفته اند).
- وقتی k=4k=4، WCSS خیلی بهتر می شود.
- وقتی k=7k=7، WCSS فقط کمی بهتر از k=6k=6 است. → پس نقطه ی آرنج مثلا روی k=4k=4 یا k=5k=5 قرار دارد.
نتایج و اهمیت
- معیار آرنج یک روش بصری و شهودی است، اما در عمل بسیار موثر برای تعیین تعداد خوشه ها.
این روش در حوزه های مختلف مثل بازاریابی، زیست پزشکی، تحلیل متن و داده های اجتماعی استفاده می شود
منبع:
Herdiana, I., Kamal, M. A., & Estri, M. N. (2025). A More Precise Elbow Method for Optimum K-means Clustering. arXiv preprint arXiv:2502.00851. & copilot ai.