بررسی نرخ موفقیت الگوریتم های یادگیری تقویتی PBPI و API دردامنه های رویت پذیرونیمه رویت پذیرمارکوف

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 721

فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

RDERI02_031

تاریخ نمایه سازی: 11 اردیبهشت 1394

چکیده مقاله:

انتخاب کنش خوب موضوع اصلی درهرگام تصمیم گیری برای رسیدن به موفقیت درسیستم های طبیعی و مصنوعی یادگیری تقویتی به شمار می رود به همین دلیل انتخاب کنش خوب درسیستم های نیمه رویت پذیرمارکوف به منظور رسیدن به راه حلهای بهتر ضروری به نظر می رسد دراین مقاله باتوجه به موضوع حداقل سازی تعداد کنشهای لازم درحین اجرا به منظور رسیدن به سیاست موفق که بیانگر نرخ موفقیت می باشد به بررسی نرخ موفقیت الگوریتم های تکرار سیاست تقریبی API و تکرار سیاست مبتنی بررجحان PBPI درمحیطهای رویت پذیر و نیمه رویت پذیرمارکوف پرداخته شدهاست برای ارزیابی نیز ازسه محیط اموزشی معتبر ماشین - کوهستان پاندول معکوس و ماز استفاده شده است نتایج ازمایشگاهی نرخ بالای موفقیت را درالگوریتم PBPI نسبت به API نشان میدهند که دراولی رتبه بند ودردومی کلاسبند به عنوان سیاست یادگیری عمل می کنند همچنین نتایج بدست آمده نشان میدهد که نرخ موفقیت درمحیطهای رویت پذیر بیشتر ازنرخ موفقیت درمحیطهای نیمه رویت پذیر می باشد

کلیدواژه ها:

نرخ موفقیت ، فرایند تصمیم سازی مارکوف ، یادگیری تقویتی ، تکرار سیاست مبتنی بررجحان ، تکرار سیاست تقریبی

نویسندگان

الهه عبدی

مربی دانشکده فنی و حرفه ای سما دانشگاه آزاد اسلامی واحد اسلامشهر اسلامشهر ایران

میرمحسن پدرام

استادیاردانشگاه خوارزمی دانشگاه واحدحصارک کرج حصارک کرج ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Sutton, R. S., Barto, A. G., Reinforcemet Learning: An Introduction ...
  • Cheng, W., Furnkranz, J., Hullermeier, E., Park, S., "leveraging Preference ...
  • Aberdeen, D., Baxter, J., "Scaling Internal-State Pol icy-Gradient Methods for ...
  • Spaan., M., "Partially Observable Markov Decision Processes", Draft to appear ...
  • Cassandra, AR., Kaelbling, LP., Kurien, JA., "Acting under uncertainty: Discrete ...
  • Parr, R., Russell, S., _ _ ximating optimal policies for ...
  • Zhang, N. L.. Zhang, W., "Speeding Up the Convergence of ...
  • Littman, M., "Memoryless policies: theoretical limitations and practical results", Proc. ...
  • Cheng, W., Firnkranz, J., Hillermeier, E., Brinker, K., "Label Ranking ...
  • Bagnell, J. Andrew., "Learning decision: Robustness, Uncertainty, and Approxi mation", ...
  • Cheng, W., Furnkranz, J, Hullermeier, E., Park, S., _ 'Preference-B ...
  • نمایش کامل مراجع