بررسی نرخ موفقیت الگوریتم های یادگیری تقویتی PBPI و API دردامنه های رویت پذیرونیمه رویت پذیرمارکوف
سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 780
فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
RDERI02_031
تاریخ نمایه سازی: 11 اردیبهشت 1394
چکیده مقاله:
انتخاب کنش خوب موضوع اصلی درهرگام تصمیم گیری برای رسیدن به موفقیت درسیستم های طبیعی و مصنوعی یادگیری تقویتی به شمار می رود به همین دلیل انتخاب کنش خوب درسیستم های نیمه رویت پذیرمارکوف به منظور رسیدن به راه حلهای بهتر ضروری به نظر می رسد دراین مقاله باتوجه به موضوع حداقل سازی تعداد کنشهای لازم درحین اجرا به منظور رسیدن به سیاست موفق که بیانگر نرخ موفقیت می باشد به بررسی نرخ موفقیت الگوریتم های تکرار سیاست تقریبی API و تکرار سیاست مبتنی بررجحان PBPI درمحیطهای رویت پذیر و نیمه رویت پذیرمارکوف پرداخته شدهاست برای ارزیابی نیز ازسه محیط اموزشی معتبر ماشین - کوهستان پاندول معکوس و ماز استفاده شده است نتایج ازمایشگاهی نرخ بالای موفقیت را درالگوریتم PBPI نسبت به API نشان میدهند که دراولی رتبه بند ودردومی کلاسبند به عنوان سیاست یادگیری عمل می کنند همچنین نتایج بدست آمده نشان میدهد که نرخ موفقیت درمحیطهای رویت پذیر بیشتر ازنرخ موفقیت درمحیطهای نیمه رویت پذیر می باشد
کلیدواژه ها:
نرخ موفقیت ، فرایند تصمیم سازی مارکوف ، یادگیری تقویتی ، تکرار سیاست مبتنی بررجحان ، تکرار سیاست تقریبی
نویسندگان
الهه عبدی
مربی دانشکده فنی و حرفه ای سما دانشگاه آزاد اسلامی واحد اسلامشهر اسلامشهر ایران
میرمحسن پدرام
استادیاردانشگاه خوارزمی دانشگاه واحدحصارک کرج حصارک کرج ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :