تخمین داده های مفقود جریان رودخانه با استفاده از الگوریتم های یادگیری جمعی و ماشینی (مطالعه موردی: رودخانه کرخه)
- سال انتشار: 1404
- محل انتشار: مهندسی آبیاری و آب ایران، دوره: 15، شماره: 3
- کد COI اختصاصی: JR_WATER-15-3_009
- زبان مقاله: فارسی
- تعداد مشاهده: 77
نویسندگان
دانشجوی دکترای تخصصی، گروه مهندسی آب و سازه های هیدرولیکی، دانشکده مهندسی عمران، دانشگاه سمنان، ایران
دانشیار، گروه مهندسی آب و سازه های هیدرولیکی، دانشکده مهندسی عمران، دانشگاه سمنان، ایران
استاد، گروه مهندسی آب و سازه های هیدرولیکی، دانشکده مهندسی عمران، دانشگاه سمنان، ایران
چکیده
در این پژوهش، از ۹ الگوریتم یادگیری جمعی و ماشینی شامل الگوریتم های Xgboost، Catboost، Extra Trees، Random Forest، M۵، MLP، K-NN، Decision Tree وSVR برای تخمین داده های مفقود جریان روزانه رودخانه کرخه استفاده شد. جهت برآورد داده های مفقود ایستگاه عبدالخان و پای پل، داده های جریان روزانه ایستگاه هیدرومتری حمیدیه به عنوان ایستگاه همسایه در دوره آماری ۴۰ ساله مورد بررسی قرار گرفت. بهینه سازی فراپارامترهای الگوریتم های مذکور، به روش Optuna انجام شد. مقایسه عملکرد مدل ها نشان داد که الگوریتم Xgboost با یادگیری روابط غیرخطی پیچیده،دقت بیشتری در تخمین داده های مفقود دارد. الگوریتم مذکور، در ایستگاه های عبدالخان و پای پل، با داشتن بیشترین مقدار ضریب تعیین (R۲) به ترتیب برابر با ۹۵/۰ و ۷۸/۰ و کمترین مقدار میانگین خطای مطلق (MAE) بترتیب برابر با ۷۶/۱۸ و ۴۵/۳۶ بهترین عملکرد را دارد. همچنین، کمترین مقدار ریشه میانگین مربع خطاها (RMSE) برابر با ۷۵/۴۳ و ۸۷/۱۰۸ به دست آمد.علاوه براین، الگوریتم Xgboost کمترین مقدار مجذور میانگین مربعات خطای نسبی (RRMSE) برابر با ۲۰/۰ و ۴۶/۰ ثبت کرد.بنابراین، الگوریتم Xgboost بیشترین کارایی را در تخمین داده های مفقود نسبت به بقیه مدل ها در هر دو ایستگاه دارد. همچنین، می تواند بر چالش های مکانی و داده های محدود غلبه کند. نتایج نمودار تیلور نیز حاکی از برتری مدل Xgboost در هر دو ایستگاه مذکور است. مدل Catboost نیز در ایستگاه های عبدالخان و پای پل به ترتیب ۱۱% و ۵% دقت کمتر از مدل Xgboost داشت و دومین جایگاه را میان مدل های بررسی شده کسب کرد .نتایج این پژوهش می تواند جهت تخمین جریان رودخانه در سایر ایستگاه های فاقد آمار مفید واقع شود.کلیدواژه ها
تخمین داده های مفقود, تقویت گرادیان شدید, یادگیری جمعی, یادگیری ماشین, optunaاطلاعات بیشتر در مورد COI
COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.