تحلیل های ریاضی و الگوریتمی پیشرفته در یادگیری تقویتی عمیق: رویکردی مبتنی بر نظریه تقریب وپایداری

سال انتشار: 1405
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 16

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

EMCCONF28_184

تاریخ نمایه سازی: 28 خرداد 1405

چکیده مقاله:

این مقاله به بررسی عمیق مبانی ریاضی و الگوریتمی یادگیری تقویتی عمیق (Deep Reinforcement Learning -DRL) با تمرکز بر نظریه تقریب تابع و معیارهای پایداری می پردازد. یادگیری تقویتی عمیق به عنوان یکی از پارادایم های اصلی در هوش مصنوعی مدرن، با چالش های بنیادی در زمینه همگرایی، پایداری و تعمیم پذیری مواجه است. در این پژوهش، ابتدا چارچوب ریاضی فرموله شده ای از مسئله یادگیری تقویتی عمیق ارائه می شود که در آن فرآیند تصمیم گیری مارکوف (MDP) به همراه تقریب های غیرخطی توسط شبکه های عصبی عمیق مورد تحلیل قرار می گیرد. سپس با تمرکز بر خانواده الگوریتمهای مبتنی بر گرادیان سیاست (Policy Gradient) و روش های ارزش- عمل (Actor-Critic) تحلیل ریاضی دقیقی از شرایط همگرایی و نرخهای آن ارائه می شود. برDRL مهمترین یافته این تحقیق، ارائه چارچوبی یکپارچه برای تحلیل پایداری الگوریتمهایاساس نظریه سیستمهای دینامیکی تصادفی و نظریه اپراتورهای غیرخطی است. در اینچارچوب، شرط الزم و کافی برای پایداری الگوریتمهای مبتنی بر گرادیان سیاست به صورت زیراستخراج شده است

کلیدواژه ها:

بین یادگیری تقویتی عمیق ، نظریه تقریب ، پایداری الگوریتمی ، فرآیند تصمیم گیری مارکوف

نویسندگان

مصطفی عصاری

۱- کارشناسی ارشد