تحلیل های ریاضی و الگوریتمی پیشرفته در یادگیری تقویتی عمیق: رویکردی مبتنی بر نظریه تقریب وپایداری

مصطفی عصاری

تحلیل های ریاضی و الگوریتمی پیشرفته در یادگیری تقویتی عمیق: رویکردی مبتنی بر نظریه تقریب وپایداری

محل انتشار: بیست و هشتمین کنفرانس ملی اقتصاد، مدیریت و حسابداری

سال انتشار: 1405

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 16

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2638320

شناسه ملی سند علمی:

EMCCONF28_184

تاریخ نمایه سازی: 28 خرداد 1405

چکیده مقاله:

این مقاله به بررسی عمیق مبانی ریاضی و الگوریتمی یادگیری تقویتی عمیق (Deep Reinforcement Learning -DRL) با تمرکز بر نظریه تقریب تابع و معیارهای پایداری می پردازد. یادگیری تقویتی عمیق به عنوان یکی از پارادایم های اصلی در هوش مصنوعی مدرن، با چالش های بنیادی در زمینه همگرایی، پایداری و تعمیم پذیری مواجه است. در این پژوهش، ابتدا چارچوب ریاضی فرموله شده ای از مسئله یادگیری تقویتی عمیق ارائه می شود که در آن فرآیند تصمیم گیری مارکوف (MDP) به همراه تقریب های غیرخطی توسط شبکه های عصبی عمیق مورد تحلیل قرار می گیرد. سپس با تمرکز بر خانواده الگوریتمهای مبتنی بر گرادیان سیاست (Policy Gradient) و روش های ارزش- عمل (Actor-Critic) تحلیل ریاضی دقیقی از شرایط همگرایی و نرخهای آن ارائه می شود. برDRL مهمترین یافته این تحقیق، ارائه چارچوبی یکپارچه برای تحلیل پایداری الگوریتمهایاساس نظریه سیستمهای دینامیکی تصادفی و نظریه اپراتورهای غیرخطی است. در اینچارچوب، شرط الزم و کافی برای پایداری الگوریتمهای مبتنی بر گرادیان سیاست به صورت زیراستخراج شده است

کلیدواژه ها:

بین یادگیری تقویتی عمیق ، نظریه تقریب ، پایداری الگوریتمی ، فرآیند تصمیم گیری مارکوف

نویسندگان

مصطفی عصاری

۱- کارشناسی ارشد