ارائه روشی جهت پیش بینی بهترین زمان پردازش از بین چندین مجموعه داده متنی پیش از خوشه بندی با الگوریتم KMeans
سال انتشار: 1403
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 91
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
BECE02_096
تاریخ نمایه سازی: 2 مرداد 1403
چکیده مقاله:
خوشه بندی مجموعه داده ها، محل ورود به تحلیل داده های عظیم است و آن چیزی که داده های عظیم را جدا از تنوع، حجم و سرعتمتمایز می کند پتانسیل تحلیلی آن است که می تواند جهت آشکارسازی بینش های جدید و بهینه سازی تصمیم گیری ها مورد استفادهقرار گیرد. مجموعه داده های عظیم نیازمند منابع فراوانی برای پردازش هستند و پیش پردازش در برخی از مسائل مانند خوشه بندی میتواند کارایی سیستم را بهبود دهد. در این مقاله نشان داده می شود که پیش پردازش بر روی چندین مجموعه داده متنی مختلف با هدفشناسایی تراکم کلمات مشابه، می تواند بصورت پیشگویانه این امکان را فراهم کند تا از میان مجموعه داده ها، مجموعه داده ای را انتخابکنیم که زمان پردازش سریع تری را هنگام خوشه بندی با الگوریتم KMeans بخود اختصاص می دهد. برای آزمایش فرضیه مطرح شدهیک برنامه جهت پیش پردازش مجموعه داده ها نوشته شد و سپس خوشه بندی چندین مجموعه داده با استفاده از الگوریتم KMeans برروی هادوپ اجرا شد تا رابطه بین درصد تکرار کلمات مشابه و تاثیر آن در سرعت خوشه بندی نشان داده شود.
کلیدواژه ها:
نویسندگان
مجتبی سمیع زاده
دانشگاه فنی و حرفه ای استان قم، قم