اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,132

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

TEDECE01_243

تاریخ نمایه سازی: 30 آبان 1394

چکیده مقاله:

یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل هوشمند بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. تنها مسیر اطلاعرسانی به عامل در یادگیری تقویتی، از راه سیگنال پاداش یا جریمه میباشد. سیگنال پاداش به عامل می فهماند که آیا تصمیم مناسبی گرفته است یا خیر. عامل موظف است با در دست داشتن این اطلاعات یاد بگیرد که بهترین عمل کدام است. یکی از مشکلات یادگیری تقویتی این است که با پیچیده تر شدن محیط، تعداد پارامترهای تصمیم گیری افزایش می یابد و زمان یادگیری نیز بیشتر می شود. تنظیم درست پارامترها اولین قدم در کاهش سرعت یادگیری است. هدف از این مقاله، مروری بر ادبیات یادگیری تقویتی، مفاهیم اصلی، روشها و الگوریتمهای آن و مفهوم پاداش شکل دهی شده است. به منظور مشاهده و بررسی تاثیر برخی پارامترها در اجرای الگوریتمها روی محیط های مختلف، همچنین نتیجه استفاده از پاداش شکل دهی شده، برخی از الگوریتمهای یادگیری تقویتی در قالب نرمافزار شبیهسازطراحی و پیادهسازی شده است. سپس آزمایش هایی روی چند محیط محک همچون maze و شش اتاقه انجام شده و نتایج گزارش شده اند.

نویسندگان

مریم زارع

کارشناس نرمافزار، دانشگاه فنی و حرفه ای، دانشکده فنی دکتر شریعتی

علیرضا خلیلیان

دانشجوی دکتری نرم افزار، دانشگاه اصفهان

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • کلامی، مصطفی، "یادگیری تقویتی: روش‌ها و کاربردها"، سمینار دوره‌ای گروه ...
  • خرامان، یونس، "یادگیری ماشین"، گزارش تحقیق، موسسه آموزش عالی اشراق ...
  • مرعشی، مریم، "کسب مهارت در یادگیری تقویتی فعال توسط عامل‌های ...
  • فرحناکیان، فهیمه، "یادگیری تقویتی"، ماه‌نامه هوش مصنوعی و ابزار دقیق، ...
  • I8 جمشیدی، نیلوفر، "مروری بر الگوریتم‌های یادگیری تقویتی و پیاده‌سازی ...
  • Markov Decision Process _ Temporal Difference 1 1 Dynamic Programming ...
  • نمایش کامل مراجع