تنظیم اولیه ی معماری یادگیری تقویتی فازی با استفاده از روش تکرار ارزش

فرزانه نادی; ولی درهمی; فریناز اعلمی یان هرندی

تنظیم اولیه ی معماری یادگیری تقویتی فازی با استفاده از روش تکرار ارزش

محل انتشار: دوفصلنامه سیستم های فازی و کاربردها، دوره: 6، شماره: 1

سال انتشار: 1402

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 158

فایل این مقاله در 18 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/1768279

شناسه ملی سند علمی:

JR_JFSA-6-1_005

تاریخ نمایه سازی: 4 مهر 1402

چکیده مقاله:

این پژوهش روشی جدید در استفاده از داده های تعاملی عامل و محیط برای تنظیم اولیه ی معماری یادگیری تقویتی فازی ارائه می دهد. کندی سرعت آموزش و نحوه ی تعیین مقدار توابع عضویت ورودی دو چالش مهم در معماری یادگیری تقویتی فازی هستند. تنظیم اولیه ی پارامترهای سیستم با استفاده از داده های تعاملی می تواند راهکار مناسبی برای رفع چالش های اشاره شده باشد. در این پژوهش ابتدا با تعامل عامل با محیط و جمع آوری داده آموزشی، ماتریس احتمال انتقال حالت-عمل به حالت بعدی و امید پاداش آنی حالت-عمل به حالت بعدی محاسبه می شود. با توجه به پیوسته بودن فضای مورد بررسی، جهت تولید دو ماتریس مذکور از خوشه بندی استفاده می شود. هر خوشه یک حالت از محیط لحاظ شده و بدین صورت یک تقریب احتمال گذر از یک خوشه به خوشه ی دیگر با توجه به داده ها تعیین می شود. سپس پارامترهای سیستم فازی با تعمیم روش تکرار ارزش برنامه سازی پویا برای فضای پیوسته تنظیم می گردد. نحوه ی استفاده از روش پیشنهادی با یک مثال به طور کامل شرح داده شده است. استفاده از این روش می تواند منجر به افزایش سرعت یادگیری و کمک در تنظیم توابع عضویت ورودی سیستم فازی گردد.

کلیدواژه ها:

سیستم فازی ، یادگیری تقویتی ، برنامه سازی پویا ، خوشه بندی

نویسندگان

فرزانه نادی

دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

ولی درهمی

دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

فریناز اعلمی یان هرندی

دانشکده مهندسی برق و کامپیوتر، دانشگاه صنعتی اصفهان، اصفهان، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

و. درهمی، ف. اعلمی یان هرندی، م.ب. دولتشاهی (۱۳۹۶)، یادگیری ...
و. درهمی، ف. اعلمی یان هرندی (۱۳۹۷)، مروری بر روش ...
الیاسی (۱۴۰۱)، طراحی یک کنترل کننده تطبیقی افق پیش رونده ...
ح. فهیمی، ج. چاچی، ا. کاظمی فرد (۱۴۰۱)، شبکه های ...
McClement, D. G., Lawrence, N. P., Backström, J. U., Loewen, ...
Elguea-Aguinaco, Í., Serrano-Muñoz, A., Chrysostomou, D., Inziarte-Hidalgo, I., Bøgh, S., ...
Vinyals, O., Babuschkin, I., Chung, J., Mathieu, M., Jaderberg, M., ...
Afsar, M. M., Crump, T., & Far, B. (۲۰۲۲). Reinforcement ...
Yang, T., Zhao, L., Li, W., & Zomaya, A. Y. ...
Uc-Cetina, V., Navarro-Guerrero, N., Martin-Gonzalez, A., Weber, C., & Wermter, ...
Lobbezoo, A., Qian, Y., & Kwon, H. J. (۲۰۲۱). Reinforcement ...
Beltran-Hernandez, C. C., Petit, D., Ramirez-Alpizar, I. G., Nishi, T., ...
Wu, K., Wang, H., Esfahani, M. A., & Yuan, S. ...
Kiran, B. R., Sobh, I., Talpaert, V., Mannion, P., Al ...
Lou, X., Yin, Q., Zhang, J., Yu, C., He, Z., ...
Fathinezhad, F., Derhami, V., & Rezaeian, M. (۲۰۱۶). Supervised fuzzy ...
Harandi, F. A., Derhami, V., & Jamshidi, F. (۲۰۱۹). A ...
Chebotar, Y., Hausman, K., Lu, Y., Xiao, T., Kalashnikov, D., ...
Derhami, V., Majd, V. J., & Ahmadabadi, M. N. (۲۰۰۸). ...
R. S. Sutton and A. G. Barto. Reinforcement learning: An ...
Zhou, K., Yang, S., & Shao, Z. (۲۰۱۷). Household monthly ...
Saini, P., Kaur, J., & Lamba, S. (۲۰۲۱). A Review ...
Li, C., Kulwa, F., Zhang, J., Li, Z., Xu, H., ...
Subramaniam, M., Kathirvel, A., Sabitha, E., & Basha, H. A. ...
Adaptive Gaussian Density Distance for Clustering [مقاله ژورنالی]

نمایش کامل مراجع