الگوریتم یادگیری تقویتی طرح ریزی اکتشافی اعمال شده به سیستم های تصمیم گیری استراتژی بازی role-playing: Dyna- H

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 894

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

RCEITT01_215

تاریخ نمایه سازی: 11 اردیبهشت 1394

چکیده مقاله:

یکی از مهمترین وظایف در قانون بازی، پیدا کردن حرکت بهینه است. در واقع تکنیک سیستم تصمیمگیری، تبدیل به یکی ازاجزای مهم بازی میشود. تصمیمات گرفته شده برای روش مورد نظر به عنوان مثال: آنلاین، گروهی و یا شبیهسازی شده و منابعمصرف شده در تصمیمگیری اجرای زمان، حافظه به میزان زیادی، عملکرد بازی را تحت تأثیر قرار میدهند. هنگامی که امکان استفاده از الگوریتمهای جستجوی کلاسیک مانند Aوجود دارد، این الگوریتمها اولین انتخاب برای محاسبهی راه حلهای بهینه هستند. با این وجود، به این دلیل که چنین روشهایی متکی بر دقت و داشتن مدلهای کاملی از فضای جستجو میباشند، محاسبهی راهحلهای بهینه توسط این الگوریتمها میتواند برای محیطهای بسیار بزرگ مشکل باشد، به طوری که بسیاری از سناریوهای جالب وجود دارند که استفاده از آنها امکان پذیر نیست؛ از این رو، روشهای بدون مدل برای تصمیمگیری، تحت شرایط غیر قطعی بهترین انتخاب هستند. در این مقاله، الگوریتم جدید طرحریزی اکتشافی با نامDyna-Hپیشنهاد شده است که مبتنی بر ساختار شناخته شدهیDynaمیباشد و توانایی جستجوی اکتشافی در مسیریابی را دارد. . الگوریتم پیشنهادی DYNA-HمانندA مسیر های مناسب تر را برای ارائه نتایج، از بین کل مسیر های موجود انتخاب می کند. با این حال برخلافA دارای مزایای بدون مدل الگوریتم تقویتی یادگیری است. الگوریتمDyna-Hرا با دو الگوریتم مسیریابی یادگیری- Dyna-Q و Q از نظر میزان و سرعت یادگیری مورد مقایسه قرار داده و این نتیجه حاصل شد کهDyna-Hدر مسائلمسیریابی نتایجی به وضوح بهتر را فراهم می نماید

نویسندگان

نکیسا کیانی

کارشناس ارشد علوم کامپیوتر، دانشگاه سیستان و بلوچستان.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Alvarez, C., Santos, M., Lopez, V., Reinforcemert Iearnin vs _ ...
  • nath «earc:h _ that considlere ilamare as a feasihilitv criterion, ...
  • Karamouzas, I., Overmars, M.H., Inilicative _ for Path PIannino anl ...
  • Mitchell, _ Machine _ McGraw-Hill, (1997). ...
  • Muse, D., Wewber, C., Wermter, S., R، hot ilockino hasel ...
  • Janssen, D., _ time andl _ information f، ) activitv-travrl ...
  • Crites, RH., Barto, A.G.. Imnroving elevator nerformance _ reinfonrcement learning ...
  • Sutton, R.S., _ _ integrated architecture for learning. planning. and ...
  • Sutton, R. S., Barto, A. G., Re inforcemert I earning: ...
  • Bellman, R.E., Dynamic Programmigg, Princeton University Press, Princeton, NJ, (1957). ...
  • Bellman, R.E., Dreyfus, S.E.., Applied _ _ Princeton University Press, ...
  • Janssen, D., _ time _ Ication informmatiow f، activitv-travel _ ...
  • Thapa, D., Jung, I., Wang, G., Agent based decision support ...
  • Fard, M., Pineau, J., Non-iletermin _ nlicies in markovian _ ...
  • Santos, M., Martin, J.A., Lopez, V., Botella, G., Tvna - ...
  • Dijkstra, E.W., A note On two problems in connection with ...
  • Sutton, R.S., Learning to predict by the method of temporal ...
  • C.J. Watkins, P. Dayan, Technical note Q-learning, Machine Learning 8 ...
  • Aggarwal, A., A taxonomy of sequential decision support systems, Informing ...
  • نمایش کامل مراجع