یادگیری تقویتی برای سیستم های کنترلی

9 شهریور 1402 - خواندن 3 دقیقه - 969 بازدید

یادگیری تقویتی 


یادگیری تقویتی یک دسته از روش های یادگیری ماشین است که در آن یک عامل هوشمند(Agent) با محیط (Environment)در تعامل است.

به بیان دیگر یادگیری تقویتی یک روش مبتنی بر بازخورد است که در آن یک عامل با انجام اقدامات(Actions) و دیدن نتایج اقدامات(Observations) یاد می گیرد در یک محیط چگونه رفتار کند. برای هر اقدام خوب، عامل بازخورد مثبت (پاداش Reward) و برای هر اقدام بد، بازخورد منفی(جریمهPenalty) دریافت می کند. فرآیند یادگیری بصورت خودکار بر اساس بازخوردهای دریافتی از محیط است.




یادگیری تقویتی برای سیستم های کنترلی

یادگیری تقویتی(Reinforcement learning) یک چارچوب برای حل مسائل کنترل از جمله کنترل بهینه فراهم می نماید.

یادگیری تقویتی یک روش یادگیری ماشین مبتنی بر بازخورد(feedback-driven machine learning) است که یک رویه برای آموزش یک عامل (Agent) بر اساس آزمون و خطا در تعامل با محیط (سیستم) برای اخذ تصمیمات بهینه فراهم می کند. هدف این رویه یادگیری ماکزیمم کردن پاداش تجمعیمی باشد. در واقع عامل یاد می گیرد که با تعامل با محیط و دریافت بازخورد از طریق پاداش یا مجازات تصمیم گیری کند. 

الگوریتم های یادگیری تقویتی بطور کلی به دو گروه بدون مدل و مبتنی بر مدل تقسیم می شوند:

 یادگیری تقویتی بدون مدل: عامل یادگیری تقویتی که به مدلی از محیط متکی نیستند. آنها از تجربه مستقیم در تعامل با محیط یادگیری را انجام می دهند. 

 یادگیری تقویتی مبتنی بر مدل: عامل یادگیری تقویتی که مدلی از محیط را یاد می گیرند و از آن مدل برای برای ایجاد یک قانون کنترلی بدون آزمون و خطای مستقیم استفاده می نماید.


فرآیندهای تصمیم مارکوف

مسئله یادگیری تقویتی معمولا به عنوان فرآیندهای تصمیم مارکوف Markov decision processes (MDPs)) فرموله می شود که یک چارچوب ریاضی برای مدل سازی مسائل تصمیم گیری با نتایج تصادفی و اقدامات قابل کنترل ارائه می دهد.در یادگیری تقویتی، عامل بر اساس حالت فعلی محیط برای رسیدن به هدف مورد نظر اقدام (تصمیم) انجام می دهد.

مسئله یادگیری تقویتی بصورت مفهومی بعنوان یک مدل تعامل-محیط (Agent-Environment Interaction Model) ارائه می شود.


از نظر تئوری رویکردهای حل مسائل یادگیری تقویتی بر اساس برنامه ریزی پویا (Dynamic programming) است که نقطه اشتراک آن با کنترل بهینه است. لذا از یادگیری تقویتی برای مدلسازی و حل مسائل کنترلی بخصوص کنترل بهینه میتوان استفاده می کرد.

در یک مقایسه اجمالی یادگیری تقویتی و کنترل بهینه، محیط معادل سیستم دینامیکی و عامل معادل کنترلر می توان در نظر گرفت.





.