اکتساب مهارت در یادگیری تقویتی و الگوریتم های آن
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,132
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
TEDECE01_243
تاریخ نمایه سازی: 30 آبان 1394
چکیده مقاله:
یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل هوشمند بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. تنها مسیر اطلاعرسانی به عامل در یادگیری تقویتی، از راه سیگنال پاداش یا جریمه میباشد. سیگنال پاداش به عامل می فهماند که آیا تصمیم مناسبی گرفته است یا خیر. عامل موظف است با در دست داشتن این اطلاعات یاد بگیرد که بهترین عمل کدام است. یکی از مشکلات یادگیری تقویتی این است که با پیچیده تر شدن محیط، تعداد پارامترهای تصمیم گیری افزایش می یابد و زمان یادگیری نیز بیشتر می شود. تنظیم درست پارامترها اولین قدم در کاهش سرعت یادگیری است. هدف از این مقاله، مروری بر ادبیات یادگیری تقویتی، مفاهیم اصلی، روشها و الگوریتمهای آن و مفهوم پاداش شکل دهی شده است. به منظور مشاهده و بررسی تاثیر برخی پارامترها در اجرای الگوریتمها روی محیط های مختلف، همچنین نتیجه استفاده از پاداش شکل دهی شده، برخی از الگوریتمهای یادگیری تقویتی در قالب نرمافزار شبیهسازطراحی و پیادهسازی شده است. سپس آزمایش هایی روی چند محیط محک همچون maze و شش اتاقه انجام شده و نتایج گزارش شده اند.
کلیدواژه ها:
نویسندگان
مریم زارع
کارشناس نرمافزار، دانشگاه فنی و حرفه ای، دانشکده فنی دکتر شریعتی
علیرضا خلیلیان
دانشجوی دکتری نرم افزار، دانشگاه اصفهان
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :