بهبود مقاومت کنترل کننده بهینه تطبیقی با بهره گیری از یادگیری تقویتی

سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,271

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEE15_344

تاریخ نمایه سازی: 17 بهمن 1385

چکیده مقاله:

با توجه به مبتنی بودن روش های کنترل بهینه بر برنامه ر یزی پویا (DP) و همچنین استفاده یادگیری تقویتی از این مفهوم، تلفیق این دو روش و استفاده از مزایای یکی در دیکگری امری مورد انتظار است که در ادبیات این دو رشته نیز به وفور یافته می شود. در این زمینه اکثر تحقیقات انجام شده در جهت استفاده از یادگیری به عنوان وسیله ای در جهت افزایش کارایی کنترل کننده های بهینه تظیر کنترل کننده خطی مربعی گوسی (LQG) و رگولاتور خطی مربعی (LQR) و در راستای بر خط شدن (online) شدن آنها و همچنین تخمین گر فیلتر کالمن انجام شده است. به این ترتیب سعی می شود تا یک کنترل کننده بهینه تطبیقی به دست آید. در این مقاله با استفاده یادگیری کیو (Q-learning) در به روز کردن مقادیر بهره فیدبک دو نتیجه قابل توجه حاصل شده است. نخست آنکه تطبیقی شدن کنترل کننده سبب پاسخ به بروز اتفاقات غیر قابل پیش بینی ، نظیر ورود اغتشاشی که از پیش اطلاعی از آن نداریم. می شود . همچنین کنترل کننده در مقابل تغییرات محدود سیستم که سبب ناپایدار در کنترل کننده LQC متداول می شود مقاوم شده است. به عبارت دیگر مشکل اصلی کنترل کننده LQC که مقاوم بودن آن است که تا حدودی حل شده است.

کلیدواژه ها:

فیلتر کالمن ، کنترل کننده های بهینه نظیر LQR ، LQG ، یادگیری تقویتی .(Q-learning ، sarsa)

نویسندگان

مازیار احمدشعربافی

دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی

آیدا محمدی نژاد رستی

دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی