ارائه روشی جهت پیش بینی بهترین زمان پردازش از بین چندین مجموعه داده متنی پیش از خوشه بندی با الگوریتم KMeans

سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 91

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

BECE02_096

تاریخ نمایه سازی: 2 مرداد 1403

چکیده مقاله:

خوشه بندی مجموعه داده ها، محل ورود به تحلیل داده های عظیم است و آن چیزی که داده های عظیم را جدا از تنوع، حجم و سرعتمتمایز می کند پتانسیل تحلیلی آن است که می تواند جهت آشکارسازی بینش های جدید و بهینه سازی تصمیم گیری ها مورد استفادهقرار گیرد. مجموعه داده های عظیم نیازمند منابع فراوانی برای پردازش هستند و پیش پردازش در برخی از مسائل مانند خوشه بندی میتواند کارایی سیستم را بهبود دهد. در این مقاله نشان داده می شود که پیش پردازش بر روی چندین مجموعه داده متنی مختلف با هدفشناسایی تراکم کلمات مشابه، می تواند بصورت پیشگویانه این امکان را فراهم کند تا از میان مجموعه داده ها، مجموعه داده ای را انتخابکنیم که زمان پردازش سریع تری را هنگام خوشه بندی با الگوریتم KMeans بخود اختصاص می دهد. برای آزمایش فرضیه مطرح شدهیک برنامه جهت پیش پردازش مجموعه داده ها نوشته شد و سپس خوشه بندی چندین مجموعه داده با استفاده از الگوریتم KMeans برروی هادوپ اجرا شد تا رابطه بین درصد تکرار کلمات مشابه و تاثیر آن در سرعت خوشه بندی نشان داده شود.

نویسندگان

مجتبی سمیع زاده

دانشگاه فنی و حرفه ای استان قم، قم