بهبود بیش برآورد یادگیری تقویتی عمیق برون-سیاست با شبکه به ر وزرسان انتخابی عمیق
- سال انتشار: 1400
- محل انتشار: بیست و هفتمین کنفرانس بین المللی کامپیوتر انجمن کامپیوتر ایران
- کد COI اختصاصی: CSICC27_037
- زبان مقاله: فارسی
- تعداد مشاهده: 344
نویسندگان
گروه مهندسی کامپیوتر، قطب علمی رایانش نرم و پردازش هوشمند اطالعات، دانشگاه فردوسی مشهد
گروه مهندسی برق، قطب علمی رایانش نرم و پردازش هوشمند اطالعات، دانشگاه فردوسی مشهد
گروه مهندسی برق، دانشگاه نیشابور،
چکیده
شبکه های عصبی عمیق-DQN) Q) نمونه ای از یادگیری تقویتی عمیق مبتنی بر یادگیریQ هستند که در آن تابع Q نمایانگر ارزش تمامی کنش های یک کارگزار در تمامی حالت های یک محیط است. یادگیری این شبکه به دلیل نگاه خوشبینانه کارگزار در تخمین حالت های آتی سبب شده است تا کارگزار مبتنی بر DQN ناپایدار و به همراه بیش برازش باشد. راه حل پیشنهادی در این مقاله ارائه نمودن شبکه به روزرسان انتخابی عمیق۱ است که در آن مشکل بیش برآورد ارزش تخمینی آینده بهبود یابد. در این رویکرد، نحوه به روزرسانی کارگزار در ابتدای یادگیری نگرش محتاطانه تری نسبت به تخمین ارزش ها دارد و با گذر زمان به رویکرد خوشبینانه یادگیریQ تغییر مسیر خواهد داد. این امر به آن جهت است که تخمین ارزش حالت های آتی در ابتدای یادگیری قابل اتکا نیست و استفاده از آن در محیط های با هزینه بالا روند یادگیری را ناپایدار میکند. نتایج حاصل برای دو محیط شبکه تنظیم کننده ژن و پاندول معکوس نشان میدهد که رهیافت پیشنهادی علاوه بر کاهش بیش برآورد تخمین ارزش، پاداش بیشتری را نسبت به DQN جمع آوری مینماید .کلیدواژه ها
بیش برآورد، یادگیری تقویتی عمیق، شبکه های عصبی عمیق-Q، برون-سیاست، شبکه به روزرسان انتخابی عمیق، پاندول معکوس،شبکه تنظیم کننده ژن، ۵۳Pمقالات مرتبط جدید
- سیستم تشخیص نفوذ در محیط رایانش ابری با استفاده از یادگیری ویژ گی
- کاهش هزینه تعمیراتی ماشین های سنگین از طریق بهبود الگوریتم درخت تصمیم با الگوریتم های انتخاب ویژگی Information Gain ،Correlation و SVM
- پردازش کوانتومی تصاویر پزشکی و تشخیص لبه آن با استفاده از الگوریتم QHED
- بررسی و مقایسه روشهای تشخیص اکانت های جعلی در شبکه های اجتماعی
- مکان یابی و مقدار بهینه منابع تولید پراکنده به منظورکاهش تلفات و بهبود انحراف ولتاژ شبکه نامتعادل توزیع
اطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.