تفاضل زمانی تخلیص شده 1 با تقریب زننده های تابع 2: بیان مثالهای موفق باCMAC

  • سال انتشار: 1382
  • محل انتشار: یازدهمین کنفرانس مهندسی برق
  • کد COI اختصاصی: ICEE11_093
  • زبان مقاله: فارسی
  • تعداد مشاهده: 1065
دانلود فایل این مقاله

نویسندگان

جواد عبدی

گروه مهندسی برق وکامپیوتر دانشکده فنی دانشگاه تهران

کارو لوکس

مرکز تحقیقات فیزیک نظری ایران

علی خاکی صدیق

گروه مهندسی برق و کامپیوتر دانشکده فنی دانشگاه صنعتی خواجه نصیرالدین طوسی

اعظم فامیل خلیلی

گروه مهندسی کامپیوتر دانشکده فنی دانشگاه آزاد اسلامی واحد کرج

چکیده

ترکیب الگوریتم یادگیری تقویتی 3 با تقریب زننده های تابعی برای تعمیم فضای حالت اخیراً از توجه ویژه ای برخوردار شده و به صورت گسترده ای این اعتقاد وجود دارد که یکی از موارد تعیین کننده برای سنجش میزان یادگیری تقویتی به قلمروهای جالب عملی، است . این مقاله ترکیب TTD یک پیاده سازی تقریبی مؤثر محاسباتی از روشهای TD(λ باCMAC یک تقریب گر تابع به ویژه مناسب برای یادگیری تقویتی درخور کارآیی محاسباتی آن و توانایی یادگیری پیوسته را مورد بررسی قرار می دهد . اکثر مطالعات قبلی ترکیب CMAC با الگوری تمهای براساس TD(0که معمولا برای λ > 0یادگیری بسیار آهسته تر صورت می گیرد ، یا با پیاده سازی مرسوم TD(λ که بر اساس آثار صلاحیت است به همر اه هزینه های محاسباتی بالا مورد بررسی قرار داده اند . مطالعه فعلی، سعی دارد با ترکیب TTD و CMAC یادگیری سریع با کارآیی محاسباتی و توانمندی های تعمیم ی را بیان کند . نتایج تجربی ارائه شده، عملکرد موفقیت آمیز الگوریتم یادگیری Q را که با استفاده از دستورالعمل CMAC و TTD در دو کار با فضاهای حالت پیوسته پیاده سازی شده اند، را نشان می دهد

کلیدواژه ها

یادگیری تقویتی، یادگیری تفاضل زمانی، تفاضل زمانی تخلیص شده، پاداش، تقریب، عاملهای یادگیر، بروزآوری

مقالات مرتبط جدید

اطلاعات بیشتر در مورد COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.

کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.