الگوریتم یادگیری تقویتی برنامه ریزی اکتشافی با تکیه بر روش های یادگیری جهت بهینه سازی مسیریابی توسط ربات

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 610

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ISCELEC03_100

تاریخ نمایه سازی: 14 فروردین 1399

چکیده مقاله:

یکی از شاخه های مهم تحقیقاتی در علم رباتیک برنامه ریزی حرکت ربات است که هدف آن یافتن مسیر بهینه از نقطه شروع به هدف و عاری از تصادم با موانع موجود در محیط ربات است. الگوریتم های A اولین انتخاب برای محاسبه ی راه حل های بهینه هستند. با این وجود، به این دلیل که چنین روش هایی نیازمند داشتن مدل های کاملی از فضای جستجومی باشند، محاسبه ی راه حل های بهینه توسط این الگوریتم ها در محیط های بسیار بزرگ مشکل است. این مقاله یک روش برنامه ریزی مسیر ربات، با استفاده از الگوریتم جدید طرح ریزی اکتشافی که مبتنی بر ساختار شناخته شده ی Dyna می باشد و توانایی جستجوی اکتشافی در مسیریابی را دارد، با استفاده از فرآیند تصمیم گیری مارکوف معرفی می نماید در این مقاله مفهوم بنیادی، اصول و روش یادگیری تقویتی و برخی از الگوریتم های دیگر مطرح شده است. سپس، برنامه ریزی مسیر ربات واحدی در محیط ایستا مبتنی بر یادگیری Q مورد مطالعه قرارگرفته و کاربرد این الگوریتم بر روی برنا مه ریزی مسیر از طریق تنظیم فضای حرکت و عمل و برنامه ریزی تابع تقویتی توصیف شده است . الگوریتم یادگیری تقویتی برنامه ریزی اکتشافی ، مانند A، مسیر های مناسب تر را برای ارائه نتایج، از بین کل مسیر های موجود انتخاب می کند. با این حال، برخلاف A دارای مزایای بدون مدل الگوریتم یادگیری تقویتی است. آزمایشات انجام شده که این الگوریتم را به صورت بصری مجسم می کنند، حاکی از یافتن مسیر بهینه توسط این الگوریتم می باشند.

نویسندگان

نکیسا کیانی

مدرس دانشگاه جامع علمی کاربردی،کارشناسی ارشد علوم کامپیوتر

خوارزم کیانی

مهندسی فناوری اطلاعات و ارتباطات