بهبود روش یادگیری تقویتی Q-Learning برای محیط های غیرقطعی با به کارگیری اتاماتای یادگیر

سال انتشار: 1399
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 848

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT09_045

تاریخ نمایه سازی: 23 آبان 1399

چکیده مقاله:

روش یادگیری Q ، یک روش یادگیری تقویتی در محیط های قطعی است. قطعیت در پاداش و تابع انتقال حالات از فرضیات الگوریتم یادگیری Q است. در یک محیط غیرقطعی نتیجه ی عمل یک عامل مشخص نیست. بنابراین، مقادیر Q معیار مناسبی برای انتخاب عمل بهینه نمی باشد. استفاده از این روش درمحیط های غیر قطعی نیازمند دانشی پیرامون عدم قطعیت محیط است. آتاماتای یادگیر یک مدل یادگیری تقویتی است، که ویژگی تصمیم گیری در محیط های نویزی و ناشناخته را دارد. در این مقاله یک مدل ترکیبی با استفاده از آتاماتای یادگیر، برای یادگیری در محیط های غیر قطعی، ارائه شده است. در این مدل، با استفاده از آتاماتای یادگیر میزان عدم قطعیت در تعامل با محیط ارزیابی شده و در روش یادگیری Q برای انجام تصمیم گیری درخصوص انتخاب عمل بهینه از آن استفاده شده است. نتایج آزمایشات، بهبود کارایی الگوریتم یادگیری Q با استفاده از دانش ارائه شده توسط آتاماتای یادگیر را نشان داده است.

نویسندگان

اسماعیل رضایی

استادیار، دانشگاه صنعتی بیرجند