یادگیری تقویتی معکوس مبتنی بر رویداد برای اجماع رهبر-پیرو بهینه تطبیقی سیستم های چندعاملی ناشناخته
سال انتشار: 1404
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 48
فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_TJEE-55-2_005
تاریخ نمایه سازی: 26 آذر 1404
چکیده مقاله:
در این مقاله، یادگیری تقویتی معکوس مبتنی بر رویداد برای بازی های گرافی زمان گسسته چند عاملی با دینامیک ناشناخته معرفی می شود. در مساله یادگیری تقویتی معکوس برای این بازی ها، سیستم خبره و یادگیرنده هر دو یک سیستم چند عاملی رهبر-پیرو می باشند. هدف سیستم خبره هم زمانی بهینه عامل های پیرو به عامل رهبر است. عامل های یادگیرنده قصد دارند از حالت ها و ورودی های کنترلی عامل های خبره تقلید کنند بطوریکه تابع ارزش خبره برای آن ها ناشناخته است. یک الگوریتم یادگیری تقویتی معکوس بر مبنای برنامه ریزی پویای تطبیقی برای سیستم یادگیرنده توسعه داده شده است تا تابع عملکرد ناشناخته خبره را بازسازی کند و معادلات همیلتون-ژاکوبی-بلمن مبتنی بر رویداد را بدون نیاز به هیچ دانشی از دینامیک های سیستم خبره و یادگیرنده حل کند. برای اجرای الگوریتم ارائه شده، از ساختار شبکه عصبی نقاد-عملگر-پاداش حالت استفاده شده است و دینامیک های ناشناخته سیستم های چندعاملی خبره و یادگیرنده با شبکه های عصبی شناساگر تقریب زده می شوند. برخلاف برنامه ریزی پویای تطبیقی سنتی که قاعده کنترل بصورت دوره ای به روز می شود، در روش ارائه شده قاعده کنترل و وزن های شبکه عصبی فقط در لحظات رویداد به روز می شوند. بنابراین پیچیدگی محاسباتی کاهش می یابد. در انتها، نتایج شبیه سازی برای توصیف کارایی روش پیشنهادی ارائه شده است.
کلیدواژه ها:
یادگیری تقویتی معکوس ، کنترل بهینه تطبیقی ، روش مبتنی بر رویداد ، اجماع رهبر-پیرو بهینه ، بازی های گرافی زمان گسسته ، شبکه های عصبی
نویسندگان
زهرا جهان
دانشجوی دکتری، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران
عباس دیدبان
دانشیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران
فرزانه عبدالهی
دانشیار، دانشکده مهندسی برق، دانشگاه امیرکبیر، تهران، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :