تفاضل زمانی تخلیص شده 1 با تقریب زننده های تابع 2: بیان مثالهای موفق باCMAC

سال انتشار: 1382
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,058

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEE11_093

تاریخ نمایه سازی: 18 تیر 1391

چکیده مقاله:

ترکیب الگوریتم یادگیری تقویتی 3 با تقریب زننده های تابعی برای تعمیم فضای حالت اخیراً از توجه ویژه ای برخوردار شده و به صورت گسترده ای این اعتقاد وجود دارد که یکی از موارد تعیین کننده برای سنجش میزان یادگیری تقویتی به قلمروهای جالب عملی، است . این مقاله ترکیب TTD یک پیاده سازی تقریبی مؤثر محاسباتی از روشهای TD(λ باCMAC یک تقریب گر تابع به ویژه مناسب برای یادگیری تقویتی درخور کارآیی محاسباتی آن و توانایی یادگیری پیوسته را مورد بررسی قرار می دهد . اکثر مطالعات قبلی ترکیب CMAC با الگوری تمهای براساس TD(0که معمولا برای λ >0یادگیری بسیار آهسته تر صورت می گیرد ، یا با پیاده سازی مرسوم TD(λ که بر اساس آثار صلاحیت است به همر اه هزینه های محاسباتی بالا مورد بررسی قرار داده اند . مطالعه فعلی، سعی دارد با ترکیب TTD و CMAC یادگیری سریع با کارآیی محاسباتی و توانمندی های تعمیم ی را بیان کند . نتایج تجربی ارائه شده، عملکرد موفقیت آمیز الگوریتم یادگیری Q را که با استفاده از دستورالعمل CMAC و TTD در دو کار با فضاهای حالت پیوسته پیاده سازی شده اند، را نشان می دهد

نویسندگان

جواد عبدی

گروه مهندسی برق وکامپیوتر دانشکده فنی دانشگاه تهران

کارو لوکس

مرکز تحقیقات فیزیک نظری ایران

علی خاکی صدیق

گروه مهندسی برق و کامپیوتر دانشکده فنی دانشگاه صنعتی خواجه نصیرالدین طوسی

اعظم فامیل خلیلی

گروه مهندسی کامپیوتر دانشکده فنی دانشگاه آزاد اسلامی واحد کرج

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • J. S. Albus, "Brain, Behavior, and Robotics". BYTE Books, 1981 ...
  • L. C. Barid, "Residual Algorithms: Reinforcement Learning with Function Approximation ...
  • A. G. Barto, R. S. Sutton, and C. W. Anderson, ...
  • J. Boyan, and A. W. Moore, _ 'Generalization in Reinforcement ...
  • P. Cichosz and , J. Mulawka, "Fast and Efficent Reinforcement ...
  • P.Cichosz, "Truncating Temporal Differences: On the Efficent Implementation of _ ...
  • c. . cordon, "Stable Function _ in Dynamic Programmming ", ...
  • Long-Ji Lin, "Re inforcement Learning for Robots Using Neural Network", ...
  • W. T. Miller, F.H. Glanz, and L. G. Kraft, "CMAC: ...
  • D. Mitchie and . A. Chambers, "BOXES: An Experiment in ...
  • A. W. Moore, "Efficient Memory-Based Learning for Robot Control", PHD ...
  • S. P. Singh and R. C. Yee, "Technical Note: An ...
  • R.S. Sutton, "Temporal Credit Assignment in Reinforcement Learning ", PHD ...
  • R. S. Sutton, "Learning to Predict by the Methods of ...
  • R. S. Sutton, ،، Generalization in Reinforcement Learning: Successful Examples ...
  • S. B. Thurn and A. Schwartz, "Issues in Using Function ...
  • C. J. C. H. Watkins, "Learning From Delayed Rewards", PHD ...
  • th ICEE, May 2003, Vol. 3 ...
  • نمایش کامل مراجع