بهبود مقاومت کنترل کننده بهینه تطبیقی با بهره گیری از یادگیری تقویتی

مازیار احمدشعربافی; آیدا محمدی نژاد رستی

بهبود مقاومت کنترل کننده بهینه تطبیقی با بهره گیری از یادگیری تقویتی

محل انتشار: پانزدهیمن کنفرانس مهندسی برق ایران

سال انتشار: 1386

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,401

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/25412

شناسه ملی سند علمی:

ICEE15_344

تاریخ نمایه سازی: 17 بهمن 1385

چکیده مقاله:

با توجه به مبتنی بودن روش های کنترل بهینه بر برنامه ر یزی پویا (DP) و همچنین استفاده یادگیری تقویتی از این مفهوم، تلفیق این دو روش و استفاده از مزایای یکی در دیکگری امری مورد انتظار است که در ادبیات این دو رشته نیز به وفور یافته می شود. در این زمینه اکثر تحقیقات انجام شده در جهت استفاده از یادگیری به عنوان وسیله ای در جهت افزایش کارایی کنترل کننده های بهینه تظیر کنترل کننده خطی مربعی گوسی (LQG) و رگولاتور خطی مربعی (LQR) و در راستای بر خط شدن (online) شدن آنها و همچنین تخمین گر فیلتر کالمن انجام شده است. به این ترتیب سعی می شود تا یک کنترل کننده بهینه تطبیقی به دست آید. در این مقاله با استفاده یادگیری کیو (Q-learning) در به روز کردن مقادیر بهره فیدبک دو نتیجه قابل توجه حاصل شده است. نخست آنکه تطبیقی شدن کنترل کننده سبب پاسخ به بروز اتفاقات غیر قابل پیش بینی ، نظیر ورود اغتشاشی که از پیش اطلاعی از آن نداریم. می شود . همچنین کنترل کننده در مقابل تغییرات محدود سیستم که سبب ناپایدار در کنترل کننده LQC متداول می شود مقاوم شده است. به عبارت دیگر مشکل اصلی کنترل کننده LQC که مقاوم بودن آن است که تا حدودی حل شده است.

کلیدواژه ها:

فیلتر کالمن ، کنترل کننده های بهینه نظیر LQR ، LQG ، یادگیری تقویتی .(Q-learning ، sarsa)

نویسندگان

مازیار احمدشعربافی

دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی

آیدا محمدی نژاد رستی

دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی