کنترل زیربهینه تطبیقی با فیدبک خروجی برای سیستم های خطی با استفاده از یادگیری تقویتی انتگرالی

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 29

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DMECONF10_196

تاریخ نمایه سازی: 1 مرداد 1404

چکیده مقاله:

تکنیکهای یادگیری تقویتی (RL) با موفقیت برای یافتن کنترلکنندههای بازخوردی حالت بهینه برای سیستمهای پیوسته زمان (CT) به کار رفته اند. با این حال، در اکثر کاربردهای واقعی کنترل، اندازه گیری حالت های سیستم عملی نیست و طراحی کنترلکنندههای بازخوردی بر مبنای خروجی مطلوب تر است. این مقاله یک الگوریتم یادگیری آنلاین مبتنی بر تکنیک یادگیری تقویتی انتگرالی (IRL) توسعه میدهد تا یک کنترل کننده بازخوردی بر مبنای خروجی، به صورت زیربهینه برای سیستم های خطی پیوسته زمان و تا حدی ناشناخته، بیابد. الگوریتم پیشنهادی مبتنی بر IRL، در هر تکرار به صورت بلادرنگ (online) معادله بلمن IRL را حل می کند تا یک سیاست بازخوردی بر مبنای خروجی را ارزیابی نماید و سپس با استفاده از اطلاعات به دست آمده از این سیاست ارزیابی شده، به روزرسانی می کند. دانش دینامیکهای رانشی (drift dynamics) سیستم برای این روش مورد نیاز نیست. یک ناظر تطبیقی (adaptive observer) برای فراهم کردن تخمینی از حالت های کامل سیستم در طول فرآیند یادگیری و برای حل معادله بلمن IRL به کار گرفته می شود. با این حال، پس از پایان فرآیند یادگیری، دیگر نیازی به ناظر نخواهد بود. همگرایی الگوریتم پیشنهادی به یک راه حل زیربهینه بازخوردی بر مبنای خروجی و همچنین عملکرد این روش، از طریق شبیه سازی روی کاربرد واقعی، یعنی میز X-Y مورد تایید قرار گرفته است.

کلیدواژه ها:

یادگیری تقویتی انتگرالی (IRL) ، سیستمهای خطی پیوسته زمان (CT) ، کنترل بهینه ، بازخورد بر مبنای خروجی

نویسندگان

سیدحسین موسوی

دانشجوی ارشد کنترل دانشگاه شهید بهشتی