Q-Learning تقویتیبرای کنترل ردیابی بهینه سیستم های خطی زمان گسسته با دینامیک

سال انتشار: 1404
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 70

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

DMECONF10_195

تاریخ نمایه سازی: 1 مرداد 1404

چکیده مقاله:

در این مقاله، یک رویکرد جدید مبتنی بر الگوریتم یادگیری Q برای حل ردیاب درجه دوم خطی افق بینهایت LQT برای سیستمهای زمان گسسته ناشناخته به روش علی پیشنهاد شده است. فرض بر این است که مسیر مرجع توسط یک سیستم مولد فرمان خطی تولید می شود. یک سیستم تقویت شده متشکل از سیستم اصلی و ژنراتور فرمان ساخته شده است و نشان داده می شود که تابع مقدار برای LQT از نظر وضعیت سیستم تقویت شده درجه دوم است. با استفاده از ساختار درجه دوم تابع مقدار، یک معادله بلمن و یک معادله جبری تکمیلی ریکاتی ARE برای حل LQT مشتق شده است. بر خلاف راه حل استاندارد LQT که به حل یک معادله ARE و یک معادله تفاوت غیر علی به طور همزمان نیاز دارد، در روش پیشنهادی ورودی کنترل بهینه تنها با حل یک ARE تقویت شده به دست می آید. یک الگوریتم یادگیری Q برای حل آنلاین ARE تقویت شده بدون هیچ گونه دانشی در مورد دینامیک سیستم یا ژنراتور فرمان توسعه داده شده است. همگرایی به راه حل بهینه نشان داده شده است. یک مثال شبیه سازی برای تایید اثربخشی طرح کنترل پیشنهادی استفاده می شود.

کلیدواژه ها:

یادگیری تقویتی ، ردیاب درجه دوم خطی ، سیستمهای زمان گسسته ناشناخته ، معادله جبری ریکاتی ، کنترل بهینه

نویسندگان

سیدحسین موسوی

دانشجوی ارشد کنترل دانشگاه شهید بهشتی