بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی
- سال انتشار: 1384
- محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران
- کد COI اختصاصی: ACCSI11_063
- زبان مقاله: فارسی
- تعداد مشاهده: 1158
نویسندگان
گروه کامپیوترموسسه آموزش عالی جهاد دانشگاهی یزد
بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس
بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس
چکیده
تعادل بین مکاشفه و استفاده از تجربیات به دست آمده درانتخاب عمل یکی از موضوعات مهم در آموزش تقویتی است. این مقاله به بررسی کارایی معروفترین سیاست های انتخاب عمل greedy, (greedy,e - softmax و ارائه ایده هایی برای بهبود انتخاب عمل، از لحاظ برقراری تعادل مناسب می پردازد. این ایده ها از پارامترهایی چون نرخ تغییرات مقادیرQ حذف عمل ها با Qی منفی در انتخاب عمل، و تعداد دفعات ملاقات هر حالت در تعیین مقدار ضریب دما برایروشsoftmax بهره می برند. برای مقایسه عملکرد روش ها از شبیه سازی حرکت یک ربات در یک محیط مارپیچ قطعی و نیز یک محیط تصادفی استفاده شده است. کارایی و نحوه عملکرد روش های ارائه شده و روشهای موجود از لحاظ تعداد گام های رسیدن به هدف، سرعت آموزش، دفعات انتخاب راه بهینه و ... با هم مقایسه می گردند. نتایج شبیه سازی حاکی از بهبود کارآیی در صورت بکارگیری راهکارهای ارائه شده در این مقاله می باشد.کلیدواژه ها
آموزشQ،مکاشفه، استفاده از تجربه، آموزش تقویتیاطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.