CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

یادگیری تقویتی در سیستم های چندعامله غیرهمکار

عنوان مقاله: یادگیری تقویتی در سیستم های چندعامله غیرهمکار
شناسه ملی مقاله: SASTECH09_149
منتشر شده در نهمین سمپوزیوم بین المللی پیشرفتهای علوم و تکنولوژی در سال 1393
مشخصات نویسندگان مقاله:

عاطفه بابایی - دانش آموخته کارشناسی ارشد دانشگاه علوم اقتصادی تهران

خلاصه مقاله:
یکی از مسایلی که در زمینه تحقیقات سیستم های چندعامله مورد توجه قرار گرفته است، استفاده از تکنیکهای یادگیر تجهیز سیستمهای چندعامله با تواناییهای یادگیری میباشد. در این مسایل چندین تعادل نش وجود دارد. در یادگیری تقویتی سیستم های چندعامله، بیشترین تضمین همگرایی الگوریتم های یادگیری به تعادل نش بهینه است. بازی های تصادفی بعنوان توسعهای از فرایندهای تصادفی مارکوف با چندعامل در سیستمهای چندعامله مدلسازی آنها دارای اهمیت بوده بعنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله بکار رفته اند. در این مقاله الگوریتم یادگیری تقویتی Nash-Q برای حل نوعی از بازی تصادفی Grid-World که سیستم چندعامله غیرهمکار است دارای دو تعادل نش است، بکار برده شد نتایج نشان داده شدند.

کلمات کلیدی:
سیستم های چندعامله، تیوری بازی ها، یادگیری تقویتی، Nash Q-learning، بازی های تصادفی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/841573/