یک سیستم مدیریت داده توزیع شده برای پشتیبانی از تحلیل داده های بزرگ مقیاس

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 554

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

COMCONF06_139

تاریخ نمایه سازی: 24 شهریور 1398

چکیده مقاله:

مدیریت داده های توزیع شده یک فن آوری کلیدی برای فعال کردن پردازش و تجزیه و تحلیل داده های حجیم کارآمد در محیط های محاسبه خوشه ای است. به طور خاص، در محیط هایی که حجم داده ها فراتر از توانایی های سیستم است، فایل های داده بزرگ باید توسط نمونه های نمایه با خواص آماری مشابه با مجموعه داده های کل خلاصه شوند. این مقاله یک سیستم مدیریت داده بزرگ BDMS را بر پایه بلوک های داده های نمونه تصادفی توزیع شده پیشنهاد می کند این مدل یک طراحی معماری سطح بالا از BDMS ارایه می دهد که سیستم فایل توزیع جریان را گسترش می دهد. این سیستم عملکردهای مشخصی را برای مدیریت سطح بلوک از قبیل تجزیه و تحلیل آماری، سازماندهی بلوک های داده، وانتخاب بلوک های داده ارایه می دهد. این مقاله همچنین یک طرح تقسیم بندی تصادفی را ارایه می دهد تا یک مجموعه داده بزرگ را به عنوان مجموعه ای از بلوک های داده با هم پوشانی نمایش دهد؛ هر بلوک یک نمونه تصادفی از کل مجموعه داده ها است. براساس این طرح پیشنهادی، دو الگوریتم به عنوان یک استراتژی اجرایی برای تبدیل بلوک های سازنده یک فایل بزرگ به مجموعه ای از بلوک های داده نمونه تصادفی که در HDFS ذخیره شده است، معرفی می شوند. نتایج تجربی نشان می دهد که زمان اجرای عملیات پارتیشن بندی در کاربردهای واقعی قابل قبول است، زیرا این عملیات تنها یکبار در هر فایل داده ورودی انجام می شود.

کلیدواژه ها:

داده توزیع شده ، هدوب ، BDMS ، HDFS ، سیستم مدیریت داده بزرگ ، داده حجیم ، پردازش

نویسندگان

سید مجتبی حاجی امینی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر نرم افزار موسسه آموزش عالی بصیر آبیک

محمد حجاریان

موسسه آموزش عالی بصیر آبیک