یادگیری تقویتی معکوس مبتنی بر رویداد برای اجماع رهبر-پیرو بهینه تطبیقی سیستم های چندعاملی ناشناخته

سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 48

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_TJEE-55-2_005

تاریخ نمایه سازی: 26 آذر 1404

چکیده مقاله:

در این مقاله، یادگیری تقویتی معکوس مبتنی بر رویداد برای بازی های گرافی زمان گسسته چند عاملی با دینامیک ناشناخته معرفی می شود. در مساله یادگیری تقویتی معکوس برای این بازی ها، سیستم خبره و یادگیرنده هر دو یک سیستم چند عاملی رهبر-پیرو می باشند. هدف سیستم خبره هم زمانی بهینه عامل های پیرو به عامل رهبر است. عامل های یادگیرنده قصد دارند از حالت ها و ورودی های کنترلی عامل های خبره تقلید کنند بطوریکه تابع ارزش خبره برای آن ها ناشناخته است. یک الگوریتم یادگیری تقویتی معکوس بر مبنای برنامه ریزی پویای تطبیقی برای سیستم یادگیرنده توسعه داده شده است تا تابع عملکرد ناشناخته خبره را بازسازی کند و معادلات همیلتون-ژاکوبی-بلمن مبتنی بر رویداد را بدون نیاز به هیچ دانشی از دینامیک های سیستم خبره و یادگیرنده حل کند. برای اجرای الگوریتم ارائه شده، از ساختار شبکه عصبی نقاد-عملگر-پاداش حالت استفاده شده است و دینامیک های ناشناخته سیستم های چندعاملی خبره و یادگیرنده با شبکه های عصبی شناساگر تقریب زده می شوند. برخلاف برنامه ریزی پویای تطبیقی سنتی که قاعده کنترل بصورت دوره ای به روز می شود، در روش ارائه شده قاعده کنترل و وزن های شبکه عصبی فقط در لحظات رویداد به روز می شوند. بنابراین پیچیدگی محاسباتی کاهش می یابد. در انتها، نتایج شبیه سازی برای توصیف کارایی روش پیشنهادی ارائه شده است.

کلیدواژه ها:

یادگیری تقویتی معکوس ، کنترل بهینه تطبیقی ، روش مبتنی بر رویداد ، اجماع رهبر-پیرو بهینه ، بازی های گرافی زمان گسسته ، شبکه های عصبی

نویسندگان

زهرا جهان

دانشجوی دکتری، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران

عباس دیدبان

دانشیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران

فرزانه عبدالهی

دانشیار، دانشکده مهندسی برق، دانشگاه امیرکبیر، تهران، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • K. Deng, Y. Chen, and C. Belta, ‘‘An approximate dynamic ...
  • D. Panagou, D. M. Stipanovi¢, and P. G. Voulgaris, ‘‘Distributed ...
  • J. Long, W. Wang, J. Huang, J. Lu, and K. ...
  • E. Shahamatkhah, M. Tabatabaei, "Event-Follower Tracking Control of Multi-Agent Systems ...
  • B. Abdolmaleki, A. Seifi, M. M. Arefi, "Event-Excitation Leader-Follower Tracking ...
  • X. Liu, J. Sun, L. Dou, and J. Chen, “Leader-following ...
  • T. Basar and G.J. Olsder, “Dynamic noncooperative game theory,” Society ...
  • R.S. Sutton, and A.G. Barto, “Reinforcement learning: An introduction,” Robotica, ...
  • B. Kiumarsi, H. Modares, and F. Lewis, “Reinforcement learning for ...
  • K. G. Vamvoudakis, F. L. Lewis, and G. Hudas, “Multi-agent ...
  • F. Tatari, M.B. Naghibi-Sistani, and K.G. Vamvoudakis, “Distributed optimal synchronization ...
  • M. Abouheaf, F. L. Lewis, K. G. Vamvoudakis, Sofie Haesaert, ...
  • M. I. Abouheaf, F. L. Lewis, M. S. Mahmoud, and ...
  • S. Arora, & D. Prashant, “A survey of inverse reinforcement ...
  • X. Wang and D. Klabjan, “Competitive multi-agent inverse reinforcement learning ...
  • L. Yu, J. Song, and Stefano Ermon, “Multi-agent adversarial inverse ...
  • C. Mu, K. Wang, Z. Ni, and C. Sun, “Cooperative ...
  • B. Lian, W. Xue, F. L. Lewis, & T. Chai, ...
  • B. Lian, V. S. Donge, F. L. Lewis, T. Chai, ...
  • V. S. Donge, B. Lian, F. L. Lewis, & A. ...
  • X. Li, Y. Tang, & H. R. Karimi, “Consensus of ...
  • X. Li, Z. Sun, Y. Tang, and Hamid Reza Karimi, ...
  • S. Hu, D. Yue, X. Yin, X. Xie, and Y. ...
  • L. Dong, X. Zhong, C. Sun, and H. He, “Adaptive ...
  • W. Zhao, W. Yu, and H. Zhang, “Event-triggered optimal consensus ...
  • S. Khoo, L. Xie, and Z. Man, “Robust finite-time consensus ...
  • H. Modares, F. L. Lewis and Z. Jiang, “ Tracking ...
  • Warren B. Powell, Approximate Dynamic Programming: Solving the Curses of ...
  • نمایش کامل مراجع