中亚天山高海拔地区的复杂地形和恶劣天气条件,以及稀少的水文气象站点分布,导致了该地区气象和水文观测数据的极度缺乏。而传统的基于物理过程的水文模型需要大量的观测数据来校准空间参数,使得高山区分布式水文模拟非常困难。机器学习方法(LSTM)由于其非线性拟合能力强大而逐渐被应用于水文建模,这种方法能分析输入和输出数据之间的关系,为流量模拟提供了新的策略。中国科学院新疆生态与地理研究所荒漠与绿洲生态国家重点实验室陈亚宁研究员团队对比分析了四种机器学习模型与两种水文模型在天山开都河流域日流量和极端流量模拟方面的准确性和适用性,以期为资料稀缺的高山流域的水文过程模拟提供一种新方案。
研究结果表明:在模拟日流量方面,LSTM比SWAT和SWAT-Glacier的模拟性能更好,Kling-Gupta效率系数(KGE)分别为0.92、0.82和0.80。同时,SVR,XGBoost和RF也取得了令人满意的模拟性能,KGE分别为0.67,0.71和0.70。LSTM,SWAT和SWAT-Glacier能够很好地模拟年峰流(即年最大1天流量和年最大5天流量),但未能很好地模拟年最小7天流量(PBIAS超过28%)。此外,所有模型都未能模拟出峰值和低值流量的出现日期。值得注意的是,相比于使用均方误差作为损失函数,在LSTM中使用分位数损失函数显著改善了模型模拟低值流量的能力。总体而言,对于数据稀缺的流域,LSTM可以是模拟日流量和极端流量的一个很好的替代方法。
相关成果以“Machine learning method is an alternative for the hydrological model in an alpine catchment in the Tianshan region, Central Asia”为题发表在Journal of Hydrology: Regional Studies,硕士研究生梁文婷为第一作者。该研究得到新疆重点实验室开放项目、国家自然科学基金项目和中国科学院西部青年学者项目资助。
文章链接:https://authors.elsevier.com/sd/article/S2214-5818(23)00179-9
图1 四种机器学习模型的结构图
图2 六种模型在测试期的观测日流量与模拟日流量的散点图