تبیین و پیاده سازی ۴ روش یادگیری تقویتی هوش مصنوعی (برنامه ریزی پویا، مونت کارلو، تفاضلات زمانی (سارسا و یادگیری ((Q برای مسیریابی یک کوادروتور در حضور موانع در صفحه با فرض گسسته سازی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 271

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

AEROSPACE22_193

تاریخ نمایه سازی: 31 مرداد 1403

چکیده مقاله:

یادگیری تقویتی یکی از انواع روش های یادگیری ماشین هوش مصنوعی است که به یک عامل این امکان را می دهد تا از تعامل با محیط و از طریق ازمون و خطا یاد بگیرد. می دانیم یادگیری فرآیندی سیستماتیک برای تنظیم پارامترهای سیاست یه منظور رسیدن به سیاست بهینه است ، از طرفی یادگیری تقویتی به روز رسانی پارامترهای سیاست از نتیجه پاداش و جریمه می باشد. در فرآیندهای تصمیم گیری مارکوف محدود، مسائل با فرض شناخت کامل از دینامیک محیط در حالت گسسته و محدود حل می شوند؛ در برنامه ریزی پویا مجموعه ای از روش ها برای تعیین سیاست بهینه با داشتن مدل مارکوف محدود تبین می شود؛ روش مونت کارلو بدون نیاز به دینامیک و فقط از طریق تعامل و تجربه با محیط یادگیری تحقق بخشیده می شود؛ در یادگیری با تفاضلات مکانی بر اساس پاداش در همان لحظه سیاست به روزرسانی می شود و منتظر اتمام دوره نخواهیم ماند؛ در الگوریتم سارسا ارزیابی و بهبود سیاست به صورت همزمان انجام شده و وابسته به سیاست رفتاری است و در نهایت در یادگیری Q ارزش های بهینه مستقل از سیاست رفتاری تخمین زده می شوند و وابسته به مدل دینامیکی هم نمی باشند که با پیاده سازی تمامی این روش های برای یک کوادروتور با فرض گسسته سازی در حضور موانع عملکرد آن ها بررسی شده و نقاط قوت و ضعف هر کدام تبیین گردید که یادگیری Q بهترین عملکرد را بدون داشتن مدل تبیین کرد.

کلیدواژه ها:

نویسندگان

جعفر روشنی یان

استاد، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران

فاطمه خواجه محمدی

دانشجوی دکتری هوافضا، دانشگاه خواجه نصیرالدین طوسی، تهران، ایران