تفاضل زمانی تخلیص شده 1 با تقریب زننده های تابع 2: بیان مثالهای موفق باCMAC

جواد عبدی; کارو لوکس; علی خاکی صدیق; اعظم فامیل خلیلی

تفاضل زمانی تخلیص شده 1 با تقریب زننده های تابع 2: بیان مثالهای موفق باCMAC

محل انتشار: یازدهمین کنفرانس مهندسی برق

سال انتشار: 1382

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,181

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/152099

شناسه ملی سند علمی:

ICEE11_093

تاریخ نمایه سازی: 18 تیر 1391

چکیده مقاله:

ترکیب الگوریتم یادگیری تقویتی 3 با تقریب زننده های تابعی برای تعمیم فضای حالت اخیراً از توجه ویژه ای برخوردار شده و به صورت گسترده ای این اعتقاد وجود دارد که یکی از موارد تعیین کننده برای سنجش میزان یادگیری تقویتی به قلمروهای جالب عملی، است . این مقاله ترکیب TTD یک پیاده سازی تقریبی مؤثر محاسباتی از روشهای TD(λ باCMAC یک تقریب گر تابع به ویژه مناسب برای یادگیری تقویتی درخور کارآیی محاسباتی آن و توانایی یادگیری پیوسته را مورد بررسی قرار می دهد . اکثر مطالعات قبلی ترکیب CMAC با الگوری تمهای براساس TD(0که معمولا برای λ >0یادگیری بسیار آهسته تر صورت می گیرد ، یا با پیاده سازی مرسوم TD(λ که بر اساس آثار صلاحیت است به همر اه هزینه های محاسباتی بالا مورد بررسی قرار داده اند . مطالعه فعلی، سعی دارد با ترکیب TTD و CMAC یادگیری سریع با کارآیی محاسباتی و توانمندی های تعمیم ی را بیان کند . نتایج تجربی ارائه شده، عملکرد موفقیت آمیز الگوریتم یادگیری Q را که با استفاده از دستورالعمل CMAC و TTD در دو کار با فضاهای حالت پیوسته پیاده سازی شده اند، را نشان می دهد

کلیدواژه ها:

یادگیری تقویتی ، یادگیری تفاضل زمانی ، تفاضل زمانی تخلیص شده ، پاداش ، تقریب ، عاملهای یادگیر ، بروزآوری

نویسندگان

جواد عبدی

گروه مهندسی برق وکامپیوتر دانشکده فنی دانشگاه تهران

کارو لوکس

مرکز تحقیقات فیزیک نظری ایران

علی خاکی صدیق

گروه مهندسی برق و کامپیوتر دانشکده فنی دانشگاه صنعتی خواجه نصیرالدین طوسی

اعظم فامیل خلیلی

گروه مهندسی کامپیوتر دانشکده فنی دانشگاه آزاد اسلامی واحد کرج

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

J. S. Albus, "Brain, Behavior, and Robotics". BYTE Books, 1981 ...
L. C. Barid, "Residual Algorithms: Reinforcement Learning with Function Approximation ...
A. G. Barto, R. S. Sutton, and C. W. Anderson, ...
J. Boyan, and A. W. Moore, _ 'Generalization in Reinforcement ...
P. Cichosz and , J. Mulawka, "Fast and Efficent Reinforcement ...
P.Cichosz, "Truncating Temporal Differences: On the Efficent Implementation of _ ...
c. . cordon, "Stable Function _ in Dynamic Programmming ", ...
Long-Ji Lin, "Re inforcement Learning for Robots Using Neural Network", ...
W. T. Miller, F.H. Glanz, and L. G. Kraft, "CMAC: ...
D. Mitchie and . A. Chambers, "BOXES: An Experiment in ...
A. W. Moore, "Efficient Memory-Based Learning for Robot Control", PHD ...
S. P. Singh and R. C. Yee, "Technical Note: An ...
R.S. Sutton, "Temporal Credit Assignment in Reinforcement Learning ", PHD ...
R. S. Sutton, "Learning to Predict by the Methods of ...
R. S. Sutton, ،، Generalization in Reinforcement Learning: Successful Examples ...
S. B. Thurn and A. Schwartz, "Issues in Using Function ...
C. J. C. H. Watkins, "Learning From Delayed Rewards", PHD ...
th ICEE, May 2003, Vol. 3 ...

نمایش کامل مراجع