یادگیری تقویتی در سیستم های چندعامله غیرهمکار

سال انتشار: 1393
محل انتشار: نهمین سمپوزیوم بین المللی پیشرفتهای علوم و تکنولوژی
کد COI اختصاصی: SASTECH09_149
زبان مقاله: فارسی
تعداد مشاهده: 499

نویسندگان

دانش آموخته کارشناسی ارشد دانشگاه علوم اقتصادی تهران

چکیده

یکی از مسایلی که در زمینه تحقیقات سیستم های چندعامله مورد توجه قرار گرفته است، استفاده از تکنیکهای یادگیر تجهیز سیستمهای چندعامله با تواناییهای یادگیری میباشد. در این مسایل چندین تعادل نش وجود دارد. در یادگیری تقویتی سیستم های چندعامله، بیشترین تضمین همگرایی الگوریتم های یادگیری به تعادل نش بهینه است. بازی های تصادفی بعنوان توسعهای از فرایندهای تصادفی مارکوف با چندعامل در سیستمهای چندعامله مدلسازی آنها دارای اهمیت بوده بعنوان چارچوبی مناسب در تحقیقات یادگیری تقویتی چندعامله بکار رفته اند. در این مقاله الگوریتم یادگیری تقویتی Nash-Q برای حل نوعی از بازی تصادفی Grid-World که سیستم چندعامله غیرهمکار است دارای دو تعادل نش است، بکار برده شد نتایج نشان داده شدند.

کلیدواژه ها

سیستم های چندعامله، تیوری بازی ها، یادگیری تقویتی، Nash Q-learning، بازی های تصادفی

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.