داده کاوی توزیع شده بر روی کلان داده ها با استفاده از چارچوب هدوپ به (مطالعه موردی: مرکز آمار ایران)

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 670

فایل این مقاله در 20 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IKMC08_055

تاریخ نمایه سازی: 25 آذر 1395

چکیده مقاله:

امروز کفش تجاری و کاوش اطلاعات مفید نقش مهمی در مدیریت و تحلیل کلان داده ها دارد. در حوزه الگوریتم های داده کاوی، یافتن اقلام متناوب و استخراج قوانین انجمنی نقش مهمی را ایفا می کند. از طرفی متناسب با افزایش حجم داده ها و با توجه به محدودیت منابع محاسباتی، اعمال الگوریتم های ترتیبی داده کاوی بر روی یک ماشین، کارایی مطلوب را ندارد و در حجم بالای داد، غیر ممکن است گفته در این زمینه تلاش های زیادی برای توسعه الگوریتم های مؤثر در حوزه داده کاوی موازی و توزیع شده انجام شده که تمرکز بیشتر آن ها بر مباحثی نظیر ارتباطات در شبکه گره ها، تعادل بار و سایر وظایف مبحث توضیح داده بوده است. در سال های اخیر زمینه جدیدی از مطالعات در خصوص استفاده از چارچوب این هدوپ مبتنی بر مدل برنامه نویسی نگاشت/کاهش صورت گرفته است. در این تحقیق ابتدا راهکارهای توصیه شده کلاسیک مربوط به الگوریتم Apriori به عنوان که از مهم ترین تکنیک ها برای تولید مجموعه اقلام متناوب مورد بررسی قرار گرفته و مزایا و معایب هر روش بیان می شود. سپس الگوریتم Apriori در چارچوب هدوپ و در حالت کاملاً توزیع شده پیاده سازی می شود. مطالعه موردی بر روی یک بانک اطلاعاتی کاربردی مرکز آمار ایران انجام شده و زمان اجرای الگوریتم در حالت های مختلف پیکربندی هدوپ مورد ارزیابی قرار می گیرد. ساختار مورد نظر با استفاده از ابزار کلودرا اکسپرس مورد آزمایش قرار گرفته است. نتایج نشان می دهد که سرعت اجرای الگوریتم در حالت بهره گیری از بستر هدوپ در حالت کاملاً توزیع شده افزایش قابل توجهی دارد.

کلیدواژه ها:

کلان داده ، داده کاوی توزیع شده ، مدل برنامه نویسی نگاشت/کاهش ، چارچوب هدوپ ، الگوریتم Apriori

نویسندگان

سمیه آهنگر سر یزدی

دانشجوی کارشناسی ارشد مهندسی کامپیوتر نرم افزار، دانشگاه آزاد اسلامی واحد کرج

مجید خلیلیان

استادیار دانشگاه آزاد اسلامی واحد کرج