بررسی روشهای بهبود تحمل پذیری خطا در سیستم های توزیع شده

امین محمدی کوهبنانی; سید حمید غفوری

بررسی روشهای بهبود تحمل پذیری خطا در سیستم های توزیع شده

محل انتشار: یازدهمین کنفرانس بین المللی مهندسی برق، کامپیوتر و مکانیک

سال انتشار: 1404

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 107

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2442192

شناسه ملی سند علمی:

ICPCONF11_063

تاریخ نمایه سازی: 1 آذر 1404

چکیده مقاله:

سیستم های توزیع شده به دلیل ساختار پیچیده و گسترش یافته، خود همواره در معرض انواع مختلفی از خطاها قرار دارند. این خطاها می توانند ناشی از مشکلات سخت افزاری، نرم افزاری، خطاهای شبکه یا حتی خطاهای انسانی باشند. به همین دلیل، تحمل پذیری خطا (Fault Tolerance) به عنوان یکی از ویژگی های کلیدی این سیستم ها مطرح می شود که به آنها این امکان را می دهد که به طور مداوم و بدون وقفه عملکرد صحیح خود را حفظ کنند حتی در زمانی که یک یا چند مولفه سیستم دچار نقص شوند. این مقاله به بررسی روش های مختلف بهبود تحمل پذیری خطا در سیستم های توزیع شده می پردازد. در ابتدا، مفاهیم پایه ای مربوط به تحمل پذیری خطا معرفی می شود و انواع خطاهای رایج در این سیستم ها به تفصیل بررسی می شود. خطاها می توانند شامل خطاهای سخت افزاری مانند خرابی دیسک یا حافظه، خطاهای نرم افزاری مانند باگ ها و نقص های برنامه نویسی، خطاهای شبکه مانند از دست رفتن بسته های داده و خطاهای انسانی مانند پیکربندی نادرست باشند. سپس، روش های متنوعی که برای بهبود تحمل پذیری خطا به کار می روند مورد تحلیل قرار می گیرند. این روش ها شامل تکرار داده ها، که به ذخیره سازی چندگانه اطلاعات در گره های مختلف اشاره دارد، پروتکل های اجماع که به هماهنگی و توافق بین نودها در مواجهه با خطاهای احتمالی کمک می کنند و همچنین روش های بازیابی خطا که به بازیابی سیستم از حالت های خطا و نقص می پردازند، می باشند. همچنین استفاده از روش های مبتنی بر یادگیری ماشین به عنوان یک رویکرد نوین برای شناسایی و پیش بینی خطاها در سیستم های توزیع شده مورد بررسی قرار می گیرد. این روش ها می توانند به سیستم کمک کنند تا به صورت خودکار به خطاها واکنش نشان دهد و از وقوع آنها جلوگیری کند. در نهایت، مقاله به ارائه پیشنهاداتی برای بهبود روش های موجود و ارائه جهت گیری های آینده در حوزه تحمل پذیری خطا در سیستم های توزیع شده می پردازد. این پیشنهادات می تواند شامل توسعه تکنیک های پیشرفته تر، یکپارچه سازی روش های مختلف و آموزش و آگاهی سازی کاربران و مدیران سیستم ها باشد. هدف نهایی این مقاله ارتقاء سطح تحمل پذیری خطا در سیستم های توزیع شده و افزایش قابلیت اطمینان و کارایی آنها در مواجهه با چالش های مختلف است.

کلیدواژه ها:

سیستم های توزیع شده ، تحمل پذیری خطا ، تکرار ، داده ها ، پروتکل های اجماع ، بازیابی خطا ، یادگیری ماشین

نویسندگان

امین محمدی کوهبنانی

دانشجوی دکتری مهندسی کامپیوتر، گرایش هوش مصنوعی، دانشگاه آزاد اسلامی واحد کرمان، کرمان، ایران

سید حمید غفوری

استادیار گروه مهندسی کامپیوتر و فناوری اطلاعات واحد، کرمان، دانشگاه آزاد اسلامی کرمان، ایران