A Review on Fault Tolerance Techniques for High Performance Computing

  • سال انتشار: 1393
  • محل انتشار: همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
  • کد COI اختصاصی: CSITM01_085
  • زبان مقاله: انگلیسی
  • تعداد مشاهده: 1691
دانلود فایل این مقاله

نویسندگان

Ahmad fadaei Tehrani

Dept.Computer, Najafabad Branch, Islamic Azad University of Najafabad

Framarz Safi

Dept.Computer, Najafabad Branch, Islamic Azad University of Najafabad

چکیده

Cloud computing is the next generation computing. There are new capacity and flexibilityto HPC (High Performance Computing) applications with using large number of virtual machines forcomputational intensive applications. Today’s high performance computing systems are typicallymanaged and operated by individual organizations in private. A cloud-based Infrastructure-as-a-Service (IaaS) approach for high performance computing applications promises cost savings andmore flexibility. High performance computing (HPC) systems may fail because of large workloadand number of servers. Fault tolerance techniques allow HPC systems on cloud to executecomputational intensive application with multiple of nodes. Fault tolerance can provide bestperformance of tasks in the presence of hardware and software faults. However, main failures aremostly hardware based. Also, system availability is very important and fault tolerance techniquesused to detect and predict faults. This paper gives an overview on most popular fault tolerancetechniques in HPC, prediction models and tools used in HPC.

کلیدواژه ها

High Performance Computing, Reactive Fault Tolerance, Proactive Fault Tolerance, Predictions models, Artificial Intelligent Computing, Time series models

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.