بازسازی داده‎ های گمشده جریان روزانه رودخانه با استفاده از الگوریتم جنگل گمشده در حوزه بلوچستان جنوبی، ایران

جواد آریان منش; حمید نظری پور; پیمان محمودی; پرویز خسروی

بازسازی داده‎ های گمشده جریان روزانه رودخانه با استفاده از الگوریتم جنگل گمشده در حوزه بلوچستان جنوبی، ایران

محل انتشار: پژوهشنامه مدیریت حوزه آبخیز، دوره: 15، شماره: 2

سال انتشار: 1403

نوع سند: مقاله ژورنالی

زبان: فارسی

مشاهده: 73

فایل این مقاله در 16 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > یادگیری ماشین

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/2122380

شناسه ملی سند علمی:

JR_JWMR-15-2_004

تاریخ نمایه سازی: 6 آذر 1403

چکیده مقاله:

چکیده مبسوط مقدمه و هدف: سری های زمانی کامل هیدرولوژیکی برای مدیریت و مدل سازی منابع آب و انرژی در یک اقلیم در حال تغییر حیاتی هستند. با این‎حال، چنین متغیرهایی اغلب با داده های گمشده همراه هستند، که فرایند تجزیه و تحلیل را دشوار و یا گاهی غیرممکن می‎کند. شکاف‎های داده باعث مشکلاتی در تفسیر، واسنجی ناکارآمد مدل و آماره‎های اریب‎دار می‎شوند. در این بررسی، اعتبار یک الگوریتم ماشین یادگیری تصادفی غیرپارامتری که جنگل گمشده (MissForest) نام دارد برای پرکردن شکاف سری‎های زمانی جریان روزانه در منطقه‎ای با داده کمیاب و تغییرپذیری اقلیمی قوی، ارزیابی گردیده است. مواد و روش ها: داده‎های جریان روزانه در ایستگاه‎های جریان‎سنجی حوزه آبریز بلوچستان جنوبی در یک دوره طولانی‎مدت هیدرولوژیکی (۱۹۷۲/۰۹/۲۳ تا ۲۰۱۸/۰۹/۲۲) مورد بررسی قرار گرفته است. منطقه مورد مطالعه این پژوهش (حوزه آبریز بلوچستان جنوبی) از مجموعه حوزه آبریز خلیج فارس و دریای عمان بوده و با حدود بین سدیج و مرکز پاکستان شناخته می‎شود. درصد گمشدگی بر اساس یک معیار قراردادی (کمتر از ۵۰ درصد) به‎عنوان نسبت قابل‎قبول از نرخ گمشدگی در داده‎های جریان انتخاب و سپس مکانیسم‎ها و الگوهای گمشدگی داده‎ها تعیین گردیده است. بر این اساس، تعداد ایستگاه های جریان سنجی از ۱۱ به ۷ نمونه کاهش یافته است. سپس توزیع زمانی جریان های روزانه گمشده در طول ماه های سال و فراوانی نسبی طول گمشدگی در کل دوره مورد بررسی قرار گرفته است. در ادامه، عملکرد الگوریتم بازسازی داده‎های گمشده با دو سناریوی متفاوت داده گمشده مصنوعی به چالش کشیده شده است. برای این‎منظور، دو نوع شکاف مصنوعی در قسمت داده های کامل ایجاد شده است. الف) در هر ایستگاه جریان سنجی یک بخش از داده ها (با طول ۷، ۱۴، ۲۱، ۳۰، ۶۰، ۱۸۰ و ۳۶۵ روز) به‎طور تصادفی از کل دوره حذف شده است. ب) نقاط داده منفرد شامل مقادیر مشاهده شده روزهای (۳۰، ۶۰، ۹۰، ۱۲۰، ۱۸۰ و ۳۶۵) به‎طور تصادفی از کل دوره (۲۰۱۸-۱۹۷۲) حذف شده اند. الگوریتم جنگل گمشده برای پرکردن شکاف های مصنوعی اجرا و سپس اعتبارسنجی الگوریتم در پرکردن داده‎های گمشده جریان روزانه با مقایسه سری‎های پرشده با داده‎های مشاهده شده، از طریق آزمون‎های سه‎گانه نیکویی برازش (GoF) شامل ضریب تعیین (R۲)، درصد بایاس یا اریب (PBIAS) و معیار کلینگ- کوپتا (KGE) تست شده است. علاوه بر آن، برخی کنترل ها در عملکرد الگوریتم جنگل گمشده جهت حساسیت‎سنجی انجام شده است. به این مفهوم که الگوریتم جنگل گمشده با درصدهای مختلف از گمشدگی داده در ایستگاه هدف (%۵، %۱۰، %۱۵، %۲۰، %۲۵ و %۳۰) و همچنین تعداد رکوردهای پیش بینی کننده جریان ایستگاه هدف، آزمایش شده است. یافته ها: نتایج نشان داد که به‎طور کلی الگوریتم جنگل گمشده عملکرد رضایت‎بخش و خوبی داشته و امکان شبیه‎سازی دقیق و مطمئن داده‎های از دست رفته را به‎سرعت و به‎صورت خودکار فراهم می‎آورد. عملکرد الگوریتم جنگل گمشده به‎شدت تابعی از تعداد رکوردهای پیش‎بینی کننده، طول رکورد و نوع جریان رودخانه می‎باشد. عملکرد الگوریتم جنگل گمشده به درصد گمشدگی داده های ایستگاه هدف حساس و به تعداد رکوردهای پیش بینی کننده بی‎تفاوت بوده است. با افزایش درصد گمشدگی داده‎ها، عملکرد الگوریتم جنگل گمشده به‎طور قابل ملاحظه کاهش یافته است. علاوه بر آن، این الگوریتم گمشدگی‎های کوتاه‎مدت را نسبت به گمشدگی‎های طولانی‎مدت، دقیق‎تر برآورد می‎کند. عملکرد الگوریتم جنگل گمشده به تعداد رکوردهای پیش‎بینی کننده حساس نمی‎باشد. این وضعیت، به ماهیت هیدروفیزیوگرافی زیرحوضه‎های آبریز و موقعیت ایستگاه‎های آب‎سنجی مربوط می‎شود. تنها در صورتی عملکرد الگوریتم جنگل گمشده برای یک ایستگاه خاص با افزایش رکوردهای پیش‎بینی کننده بهبود می‎یابد که ایستگاه‎های اهداءگر در حوضه آبریز مشترک با ایستگاه هدف قرار داشته باشند در نهایت، بازسازی شکاف‎های واقعی در داده‎های جریان از طریق اعمال این الگوریتم هوشمند ممکن گردید. سری‎های زمانی جریان رودخانه‎ها با رژیم جریان طبیعی با عملکرد خوب شبیه‎سازی شد؛ درحالی‎که این عملکرد برای تغییرات دبی در نتیجه ذخیره‎سازی و انحراف آب برای آبیاری به‎ویژه در پایین دست سدها اندکی افت داشت. عملکرد این الگورتیم در پرکردن سری زمانی روزانه جریان با تغییرات شدید رژیم جریان مانند دبی اوج، مطلوب ارزیابی نشد. این افت عملکرد بیشتر متوجه شرایط هیدرواقلیمی حوزه آبریز مورد مطالعه است تا ساختار الگوریتم. هیدروگراف‎های بازسازی شده امکان تجزیه و تحلیل تغییر و تنوع جریان و برهم‎کنش آن‎ها با متغیرهای آب و هوایی کلیدی را فراهم می‎کنند. نتیجه گیری: الگوریتم جنگل گمشده به‎عنوان یکی از روش‎های بازسازی مبتنی بر یادگیری ماشین دارای اعتبار و عملکرد بالا در بازسازی داده‎های گمشده جریان روزانه رودخانه معرفی شده و می‎توان از آن به‎صورت خودکار و هوشمند در بازسازی نواقص آماری جریان رودخانه در مقیاس روزانه استفاده نمود. پیشنهاد می گردد اثرات حوضه های مختلف با ویژگی های هیدروفیزیکی و اقلیمی خاص در مطالعات آتی بر روی عملکرد الگوریتم جنگل گمشده مورد تجزیه و تحلیل قرار گیرد. بررسی روش پیشنهادی این مطالعه در سایر مناطق هیدرواقلیمی و جغرافیایی، سنجش حساسیت به رژیم بارندگی و جریان رودخانه و در نهایت بررسی عملکرد آن در مقایسه با سایر روش های رایج از جمله موارد دیگری است که در مطالعات آتی می‎توان به آن پرداخت.

کلیدواژه ها:

Goodness of fit ، Machine learning ، MissForest algorithm ، Missing data ، Streamflow ، الگوریتم جنگل تصادفی ، جریان رودخانه ، داده گمشده ، نیکویی برازش ، یادگیری ماشین

نویسندگان

جواد آریان منش

Department of physical Geography, University of Sistan and Baluchestan, Zahedan, Iran

حمید نظری پور

Department of physical Geography, University of Sistan and Baluchestan, Zahedan, Iran

پیمان محمودی

Department of physical Geography, University of Sistan and Baluchestan, Zahedan, Iran

پرویز خسروی

Iran Meteorological Organization

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Aissia, M. A. B., Chebana, F., & Ouarda, T. B. ...
Alibakhshi, S. M., Farid Hossini, A., Davari, K., Alizadeh, A., ...
Arriagada, P., Dieppois, B., Sidibe, M., & Link, O. (۲۰۱۹). ...
Bennett, D. A. (۲۰۰۱). How can I deal with missing ...
Blum, A. G., Archfield, S. A., & Vogel, R. M. ...
Breiman, L. (۲۰۰۱). Random forests. Machine learning, ۴۵, ۵-۳۲ ...
Damadi, S., Dehvari, A., Dahmardeh ghaleno, M. R., & Ebrahimiyan, ...
Dembélé, M., Oriani, F., Tumbulto, J., Mariéthoz, G., & Schaefli, ...
Déry, S. J., Stahl, K., Moore, R. D., Whitfield, P. ...
Deshmukh, H., Papageorgiou, M., Kilpatrick, E. S., Atkin, S. L., ...
Di Zio, M., Guarnera, U., & Luzi, O. (۲۰۰۷). Imputation ...
Dong, Y., & Peng, C. Y. J. (۲۰۱۳). Principled missing ...
Elshorbagy, A. A., Panu, U. S., & Simonovic, S. P. ...
Grantham-McGregor, S., Cheung, Y. B., Cueto, S., Glewwe, P., Richter, ...
Gyau-Boakye, P., & Schultz, G. A. (۱۹۹۴). Filling gaps in ...
Hamzah, F. B., Mohd Hamzah, F., Mohd Razali, S. F., ...
Harvey, C. L., Dixon, H., & Hannaford, J. (۲۰۱۲). An ...
Hawthorne, G., & Elliott, P. (۲۰۰۵). Imputing cross-sectional missing data: ...
Heidari Chenari, F., Fazloula, R., & Nikzad Tehrani, E. (۲۰۲۲). ...
Hong, S., & Lynn, H. S. (۲۰۲۰). Accuracy of random-forest-based ...
Huisman, M. (۲۰۰۹). Imputation of missing network data: Some simple ...
Junninen, H., Niska, H., Tuppurainen, K., Ruuskanen, J., & Kolehmainen, ...
Kanani, R., Fakheri Fard, A., Ghorbani, M. A., & Dinpashoh, ...
Kim, M., Baek, S., Ligaray, M., Pyo, J., Park, M., ...
Kling, H., Fuchs, M., & Paulin, M. (۲۰۱۲). Runoff conditions ...
Knoben, W. J., Freer, J. E., & Woods, R. A. ...
Koçak, E. Prediction of daily fine particulate matter (PM۲. ۵) ...
Lakshminarayan, K., Harp, S. A., & Samad, T. (۱۹۹۹). Imputation ...
Liu, J., & Zhang, Y. (۲۰۱۷). Multi-temporal clustering of continental ...
Lopes, A. V., Chiang, J. C. H., Thompson, S. A., ...
Mackay, S. J., Arthington, A. H., & James, C. S. ...
Marino, S., Zhou, N., Zhao, Y., Wang, L., Wu, Q., ...
McGregor, G. R. (۲۰۱۹). Climate and rivers. River Research and ...
Moriasi, D. N., Arnold, J. G., Van Liew, M. W., ...
Muñoz, P., Orellana-Alvear, J., Willems, P., & Célleri, R. (۲۰۱۸). ...
Nadi, M., Baziarpour, H., & Raeini sarjaz, M. (۲۰۲۲). Evaluation ...
Norazian, M. N., Shukri, Y. A., Azam, R. N., & ...
Petrone, K. C., Hughes, J. D., Van Niel, T. G., ...
Plaia, A., & Bondi, A. L. (۲۰۰۶). Single imputation method ...
Poff, N. L., Allan, J. D., Bain, M. B., Karr, ...
Sartori, N., Salvan, A., & Thomaseth, K. (۲۰۰۵). Multiple imputation ...
Schafer, J.L. (۱۹۹۷) The Analysis of Incomplete Multivariate Data. Chapman ...
Sidibe, M., Dieppois, B., Mahé, G., Paturel, J. E., Amoussou, ...
Starrett, S.K., Heier, T., Su, Y., Bandurraga, M., Tuan, D., ...
Stekhoven, D. J., & Bühlmann, P. (۲۰۱۲). MissForest—non-parametric missing value ...
Tang, F., & Ishwaran, H. (۲۰۱۷). Random forest missing data ...
Tao, N., Chen, Y., Wu, Y., Wang, X., Li, L., ...
Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., ...
Tyralis, H., Papacharalampous, G., & Langousis, A. (۲۰۱۹). A brief ...
Ukkola, A. M., Keenan, T. F., Kelley, D. I., & ...
Van Buuren, S. (۲۰۰۷). Multiple imputation of discrete and continuous ...
Vega-Garcia, C., Decuyper, M., & Alcázar, J. (۲۰۱۹). Applying cascade-correlation ...
Waljee, A. K., Mukherjee, A., Singal, A. G., Zhang, Y., ...
Widaman, K. F. (۲۰۰۶). Best practices in quantitative methods for ...
Williams, L. S., Khosravi, B., Velimirovic, M., Khouri, J., Raza, ...
Zhang, Y., & Post, D. (۲۰۱۸). How good are hydrological ...

نمایش کامل مراجع