مروری بر روش های یادگیری تقویتی فازی با معماری نقاد-تنها

ولی درهمی; فریناز اعلمی یان هرندی

مروری بر روش های یادگیری تقویتی فازی با معماری نقاد-تنها

محل انتشار: دوفصلنامه سیستم های فازی و کاربردها، دوره: 1، شماره: 2

سال انتشار: 1397

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 327

فایل این مقاله در 24 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1322616

شناسه ملی سند علمی:

JR_JFSA-1-2_002

تاریخ نمایه سازی: 6 آذر 1400

چکیده مقاله:

این مقاله به مرور روش های یادگیری تقویتی فازی با معماری نقاد-تنها می پردازد . یادگیری تقویتی فازی از ترکیب سیستم های فازی به عنوان تقریب زننده ی جامع و روش یادگیری تقویتی حاصل شده است. یادگیری تقویتی یک روش یادگیری قوی است که تنها با استفاده از سیگنال عددی پاداش یا جریمه پارامترهای سیستم را به صورت برخط تنظیم می نماید. در معماری نقاد-تنها یک سیستم فازی مدل سوگنو مرتبه ی صفر برای تقریب تابع ارزش-عمل استفاده می شود و عمل نهایی بر اساس مقدار ارزش عمل های نامزد در تالی هر قاعده ی فازی و یادگیری(FQL) به دست می آید. در این مقاله دو روش پایه به نام های یادگیری کیو فازی برای تنظیم ارزش عمل های نامزد قواعد بیان می شود. در این دو روش(FSL) سارسای فازی به ترتیب از تعمیم روش های یادگیری کیو استاندارد و یادگیری سارسای استاندارد بهره برده شده وجود تحلیل های مثبت ریاضی درخصوص همگرایی است FQL بر FSL است. مهمترین برتری و گسترش هایی از FSL و FQL وجود دارد. روش های FQL در حالی که مثال هایی از واگرایی در آنها در مسائل کنترلی زیادی همچون حرکت ربات، حرکت بازوی ربات، حرکت قایق، مسیریابی در شبکه های کامپیوتری، و کنترل نیروگاه بادی استفاده شده و کارآیی خود را نشان داده اند.

کلیدواژه ها:

سیستم فازی ، مدل سوگنو ، قاعده ی فازی ، یادگیری تقویتی ، معماری نقاد-تنها

نویسندگان

ولی درهمی

دانشگاه یزد، گروه مهندسی کامپیوتر

فریناز اعلمی یان هرندی

دانشگاه یزد، گروه مهندسی کامپیوتر