تنظیم و پیکربندی خودکار پارامترهای Hadoop MapReduce بر اساس حجم داده های ورودی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 203

فایل این مقاله در 20 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CDASCI01_012

تاریخ نمایه سازی: 8 خرداد 1402

چکیده مقاله:

امروزه Hadoop MapReduce (HMR) به یک تکنولوژی محاسباتی اصلی برای تجزیه و تحلیل داده های حجیم تبدیل شده است. Hadoop یک چارچوب بزرگ و پیچیده است که دارای تعداد زیادی اجزاء می باشد. عملکرد یک Hadoop Job (HJ) به اجزاء چارچوب Hadoop از جمله سخت افزار زیربنایی، زیرساخت شبکه و پارامترهای قابل-تنظیم برای چارچوب Hadoop بستگی دارد. چارچوب Hadoop بیش از۲۰۰ پارامتر پیکربندی جهت تنظیم و استفاده بهینه از منابع موجود در Hadoop Cluster (HC) از قبیل CPU، Memory، Disk I/O، Network برای HMR دارد که بعضی از این پارامترها می تواند تاثیر قابل توجهی بر عملکرد یک HJ داشته باشد. در این مقاله ما با دو روش پیشنهادی مقادیر پارامترهای اصلی انتخابی HMR را با توجه به اندازه Dataset ورودی و نوع برنامه ارزیابی تنظیم و پیکربندی خواهیم کرد. روش اول Call History: از روی Tuneهای اجرا شده قبلی که نتایج آن ها ذخیره شده است، مقادیر پارامترهای بهترین Tune (Tune با کمترین زمان اجرای HJ) بعنوان مقادیر پارامترهای اصلی تنظیم می گردد. روش دوم فرمول نویسی: با استفاده از فرمول نویسی و مقدار ظرفیت پردازش هر Node و ظرفیت پردازش HC، مقادیر پارامترها بصورت پویا برای هر HC تنظیم می شود. در هر دو روش پس از تعیین مقادیر بهینه یا نزدیک به بهینه پارامترها، توسط نرم افزار برنامه نویسی شده بنام Auto Changer Hadoop Parameters آن مقادیر روی تمام Nodeهای موجود در HC در چند ثانیه پیکربندی می گردد. نتایج تجربی نشان می دهد که کار پیشنهاد شده عملکرد Hadoop را در مقایسه با مقادیر پیش فرض پارامترهای HMR، بطور میانگین ۱۹/%۸۷ برای برنامه WordCount و ۳۶/%۸۵ برای برنامه TeraSort افزایش داده است.

نویسندگان

رضا ملتفت

دانشجوی دکتری،گروه کامپیوتر،دانشکده فنی مهندسی،واحد یاسوج،دانشگاه آزاد اسلامی،یاسوج،ایران.

کرم اله باقری فرد

استادیار،گروه کامپیوتر،دانشکده فنی مهندسی،واحد یاسوج،دانشگاه آزاد اسلامی،یاسوج،ایران.