بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی

  • سال انتشار: 1384
  • محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران
  • کد COI اختصاصی: ACCSI11_063
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1158
دانلود فایل این مقاله

نویسندگان

فاطمه سعادت جو

گروه کامپیوترموسسه آموزش عالی جهاد دانشگاهی یزد

ولی درهمی

بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس

وحید جوهری مجد

بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس

چکیده

تعادل بین مکاشفه و استفاده از تجربیات به دست آمده درانتخاب عمل یکی از موضوعات مهم در آموزش تقویتی است. این مقاله به بررسی کارایی معروفترین سیاست های انتخاب عمل greedy, (greedy,e - softmax و ارائه ایده هایی برای بهبود انتخاب عمل، از لحاظ برقراری تعادل مناسب می پردازد. این ایده ها از پارامترهایی چون نرخ تغییرات مقادیرQ حذف عمل ها با Qی منفی در انتخاب عمل، و تعداد دفعات ملاقات هر حالت در تعیین مقدار ضریب دما برایروشsoftmax بهره می برند. برای مقایسه عملکرد روش ها از شبیه سازی حرکت یک ربات در یک محیط مارپیچ قطعی و نیز یک محیط تصادفی استفاده شده است. کارایی و نحوه عملکرد روش های ارائه شده و روشهای موجود از لحاظ تعداد گام های رسیدن به هدف، سرعت آموزش، دفعات انتخاب راه بهینه و ... با هم مقایسه می گردند. نتایج شبیه سازی حاکی از بهبود کارآیی در صورت بکارگیری راهکارهای ارائه شده در این مقاله می باشد.

کلیدواژه ها

آموزشQ،مکاشفه، استفاده از تجربه، آموزش تقویتی

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.