ارائه روشی جهت پیش بینی بهترین زمان پردازش از بین چندین مجموعه داده متنی پیش از خوشه بندی با الگوریتم KMeans

مجتبی سمیع زاده

ارائه روشی جهت پیش بینی بهترین زمان پردازش از بین چندین مجموعه داده متنی پیش از خوشه بندی با الگوریتم KMeans

محل انتشار: دومین کنفرانس ملی کسب و کار نوین در مهندسی برق و کامپیوتر

سال انتشار: 1403

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 91

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2032483

شناسه ملی سند علمی:

BECE02_096

تاریخ نمایه سازی: 2 مرداد 1403

چکیده مقاله:

خوشه بندی مجموعه داده ها، محل ورود به تحلیل داده های عظیم است و آن چیزی که داده های عظیم را جدا از تنوع، حجم و سرعتمتمایز می کند پتانسیل تحلیلی آن است که می تواند جهت آشکارسازی بینش های جدید و بهینه سازی تصمیم گیری ها مورد استفادهقرار گیرد. مجموعه داده های عظیم نیازمند منابع فراوانی برای پردازش هستند و پیش پردازش در برخی از مسائل مانند خوشه بندی میتواند کارایی سیستم را بهبود دهد. در این مقاله نشان داده می شود که پیش پردازش بر روی چندین مجموعه داده متنی مختلف با هدفشناسایی تراکم کلمات مشابه، می تواند بصورت پیشگویانه این امکان را فراهم کند تا از میان مجموعه داده ها، مجموعه داده ای را انتخابکنیم که زمان پردازش سریع تری را هنگام خوشه بندی با الگوریتم KMeans بخود اختصاص می دهد. برای آزمایش فرضیه مطرح شدهیک برنامه جهت پیش پردازش مجموعه داده ها نوشته شد و سپس خوشه بندی چندین مجموعه داده با استفاده از الگوریتم KMeans برروی هادوپ اجرا شد تا رابطه بین درصد تکرار کلمات مشابه و تاثیر آن در سرعت خوشه بندی نشان داده شود.

کلیدواژه ها:

داده های عظیم ، خوشه بندی ، پیش پردازش ، Kmeans

نویسندگان

مجتبی سمیع زاده

دانشگاه فنی و حرفه ای استان قم، قم