基于机器学习的雨型分类研究:以淠河流域为例

引用:付晓娣, 阚光远, 刘荣华, 等. 基于机器学习的雨型分类研究: 以淠河流域为例. 水利水电技术, 2024, 55: 101- 111.

摘 要:

【目的】为了提升洪水预报方案的科学性和精度,开展降雨雨型分类,制定不同雨型的预报方案并实施作业预报是一条有效的技术路线。【方法】基于淠河流域2003—2021年37个雨量站逐小时降雨观测数据,利用业界公认的动态时间规划(DTW)算法进行场次降雨雨型分类并作为基准分类结果。在此基础上,分别选取决策树(DT)、长短期记忆神经网络(LSTM)、LightGBM、支持向量机(SVM)四种机器学习方法建立分类模型并检验分类效果。通过调整样本规模,分析不同样本容量对分类效果的影响。【结果】结果表明:四种分类模型中,LightGBM分类精度最高且训练速度快,LSTM和SVM分类精度良好但训练效率相对较低,DT方法分类速度较快但分类精度相对较低。随着样本规模的增大,分类结果逐步稳定,四种方法的分类效果和训练效率逐步提升。【结论】结果验证了机器学习方法在降雨序列雨型分类中具有较强的适用性,可为洪水预报方案分类构建提供技术支撑。

关键词:

降雨雨型;时空分布特征;动态时间规划;LightGBM;LSTM;降雨;机器学习;

作者简介:

付晓娣(1987—),女,博士研究生,主要从事水灾害与水安全研究。

*阚光远(1985—),男,高级工程师,博士,研究方向为水文模拟与预报、人工智能、全局优化、并行计算。

基金:

国家自然科学基金(42271095);

中国水利水电科学研究院十四五“五大人才”计划(JZ0199A032021);

GHFUND A(ghfund202302018283);

城市水循环与海绵城市技术北京市重点实验室开放基金(HYD2020OF02);

引用:

付晓娣, 阚光远, 刘荣华, 等. 基于机器学习的雨型分类研究: 以淠河流域为例[J]. 水利水电技术(中英文), 2024, 55(2): 101- 111.

FU Xiaodi, KAN Guangyuan, LIU Ronghua, et al. Research of rain patterns classification based on machine learning: A case study in Pi River Basin[J]. Water Resources and Hydropower Engineering, 2024, 55(2): 101- 111.


0 引 言

近年来,受气候变化和人类活动加剧影响,降雨-径流过程的随机性和非平稳性日益加剧,传统的降雨-径流模拟方法面临更加严峻的挑战。随着水文观测体系的不断完善,监测数据的时空分辨率得到提升,可获取的水文气象数据种类和样本容量逐年增加。机器学习(Machine Learning)是人工智能技术的重要分支, 其核心任务是研究计算机如何模仿人类的学习行为,从大量数据中获取新的知识或经验,并重新组织已有的知识结构,提高自身的性能。机器学习利用习得的规律实现对新数据的分类、回归及预测等。

随着机器学习技术的发展,BP神经网络、长短期记忆神经网络(Long Short-Term Memory, LSTM)、支持向量机(Support Vector Machine, SVM)、决策树(Decision Tree, DT)和集成算法等机器学习方法已被应用于水文时间序列预测、降雨-径流预报、水质模拟等领域。BP神经网络能够对非线性关系进行建模,适用于复杂的水文数据分析和预测问题,但网络进行训练时易于陷入局部最优,模型训练对初始权重和网络结构十分敏感。LSTM能够学习时间序列数据中蕴含的长期依赖关系,但存在参数过多、计算量大以及训练耗时较长的不足。SVM在小样本和非线性问题上表现优异,具有很好的泛化能力;然而,SVM的核函数参数对预测性能有较大影响,且对于大样本数据的效果相对较差。DT结构简单,可处理海量数据,运算速度较快,分类精度较高。但DT容易出现过拟合,会忽略数据集中属性的相互关联。集成算法通过组合多个基模型的预测结果,可提高模型的稳定性和准确性并减少过拟合风险。当前流行的集成模型有AdaBoost、XGBoost、RF以及轻量级梯度提升机(Light Gradient Boosting Machine, LightGBM)等。需要注意的是,以上各种机器学习算法的适用性取决于具体问题和数据的特征,在水文领域的实际应用中,可根据具体情况选取合适的算法,以获取更好的水文数据分析和预测性能。

降雨雨型作为降雨径流模拟最重要的前端输入数据,对降雨-径流模拟精度影响显著。吴彰春等通过室内模拟降雨径流试验,发现在汇流历时内平均雨强相同的条件下,雨峰在中部或后部的三角形雨型比均匀雨型的洪峰大30%以上。岑国平采用模式雨型对场次降雨进行分类,开展不同雨型下降雨径流试验研究。结果表明,雨型对洪峰流量和洪水过程有较大影响。赵康乾、张晓媛分别设计了不同雨型下SWMM模型水文参数敏感性分析,表明雨型对参数灵敏度、识别效果影响显著。涂新煜构建HEC-HMS模型模拟了固定总雨量下不同雨型对应的洪峰流量,验证结果表明,不同雨型模拟出的洪峰流量存在较大偏差。多样性的降雨雨型能够避免模型参数的均匀化,保证降雨-径流模拟的精准性、精细性度和科学性。因此,有必要对流域降雨雨型开展多样性分类研究。

传统的雨型模式分类多采用DTW模糊识别法和K-means聚类法,操作较为繁琐且可视化不强,实际应用受到一定限制。随着机器学习算法的开发,利用AI技术可更为快速、客观地实现降雨过程分类。本研究基于安徽省淠河流域近20年长系列逐小时降水摘录数据,提取场次降雨,选取7类雨型模板,利用DTW距离计算方法对场次降雨雨型进行分类,分析淠河流域降雨雨型特征,并将该分类作为基准结果。在此基础上,构建了DT、LSTM、LightGBM、SVM四种机器学习分类模型,以标准化后的降雨时间序列作为自变量输入模型,对降雨雨型进行监督分类研究,对比分析四种分类模型的识别效果和样本容量对分类精度的影响,探索分类模型算法在降雨雨型分类领域的适用性。研究成果可为降雨径流相似性识别、水文模拟与预报提供技术支撑。

1 资料与方法

1.1 研究区概况

淠河流域地处江淮之间,发源于大别山北麓,河道全长253 km, 平均坡降1.46‰,流域面积6 000 km2,流域地形以山区为主,约占72%,呈南高北低和东西高中间低的狭长带状。流域地理位置如图1所示。流域为北亚热带大陆性季风气候区,受东南台风登陆影响和大别山区地势抬升等因素的共同作用,形成了较为丰沛且集中的降水,多年平均雨量1 257 mm。降水量年际变化大、年内分布和时空分布不均匀。最大年降水量是最小年的3~5倍,年内6—8月的降水可达年总降雨量的50%~60%。该地区是淮河流域平均年雨量最大的地区和暴雨多发中心之一。因此,淠河流域的降雨分型和水文模拟预报研究对于其汛期防洪安全具有重要意义。

基于机器学习的雨型分类研究:以淠河流域为例

图1 流域地理位置

1.2 资料来源

本研究采用2003—2021年近20年的淠河流域37个雨量站的逐时降雨摘录数据进行研究。

1.3 技术路线

本研究按照数据提取、数据处理、DTW计算、四种机器学习模型训练、雨型分类计算、结果分析的技术路线开展研究。技术路线如图2所示。

基于机器学习的雨型分类研究:以淠河流域为例

图2 技术路线

1.4 DTW降雨雨型分类

降雨具有持续性和间断性的特点,由于各场次降雨历时长度不同,本文选取了业界公认的、应用广泛的DTW算法对所有场次降雨进行雨型分类,并将分类结果作为基准结果,用于其他四种机器学习分类模型的验证。

DTW通过选用满足一定条件的时间规整函数描述测试序列和参考序列的时间对应关系,求解两序列匹配时累计距离最小情况下所对应的规整函数。本研究采用苏联包高马佐娃和岑国平研究的7种雨型作为标准模板,具体示例如图3所示。

基于机器学习的雨型分类研究:以淠河流域为例

图3 雨型模板

DTW方法将各场次降雨视为待测事件。通过计算待测降雨事件与标准降雨模板之间的DTW值,其中最小的DTW所对应的标准模板类型,就是该场次降雨所属的雨型。

1.5 四种机器学习分类方法介绍

通过以往学者和业界应用效果来看,DT、SVM、LSTM和LightGBM四种模型应用较多,且在建模结构、分类精度和训练效率等方面各有所长,本文围绕四种分类算法进行建模对比,从分类精准度、效果、训练效率和稳定性方面来评价模型,并选出最佳模型构建降雨雨型分类策略。

1.5.1 决策树分类

决策树(DT)分类利用信息论中信息增益寻求数据库中具有最大信息量的属性字段,采用自顶向下的分治方式构造,从一组无次序无规则的事例中推理出决策树表示形式的分类规则。选择最优划分属性是决策树分类的关键,一般采用信息增益、增益率和基尼指数来划分。

1.5.2 长短期记忆分类

长短期记忆(LSTM)是建立在RNN上的一种改进的深度机器学习神经网络,与其他神经网络一样,LSTM模型结构由输入层、一个或多个隐藏层,以及输出层组成,其隐藏层中的神经元不仅能从输入层中接收信息,还可以接收神经元从上一个时刻所感知的信息。

1.5.3 支持向量机分类

支持向量机(SVM)最基本的思想是基于训练样本集,在样本空间中找到一个划分超平面,使不同类别样本到超平面的距离之和最大。

1.5.4 轻型梯度提升机分类

轻型梯度提升机(LightGBM)是一种基于GBDT (Gradient Boosting Decision Tree) 算法的分布式梯度提升框架,其主要思想是通过不断在先前模型损失函数梯度下降的方向上构建新的模型,使得决策模型不断改进,然后将所有树的结论进行累加作为最终的预测输出。LightGBM算法采用了带深度限制的leaf-wise叶子生长策略、histogram优化算法以及直方图做差加速等技术,具有更快的训练速度和更低的计算代价,而且支持并行学习,可以快速地处理海量数据。

2 淠河流域降雨雨型分类模型的构建

2.1 数据来源和特征选择

2.1.1 数据来源

本研究采用的数据来源于场次降雨的提取和DTW降雨雨型的分类,基于2003—2021年淠河流域长系列降雨数据,按照面平均最小降雨间隔时间为6 h进行划分,即在连续6 h以上均未监测到降雨数值,则视为两次降雨过程,出现的降雨间隔不足6 h的为同一场降雨,最终得到场次降雨共11 808场,其中有效降雨(降雨量大于2 mm)共计5 710场。

统计场次降雨的降雨历时、累积降雨量等特征,利用DTW技术研究目标降雨与标准降雨雨型模板间的相似性程度,从而判断目标场次降雨类型归属。淠河流域2003—2021年7类雨型统计结果如表1所列。

2.1.2 特征选择

雨型反映了降雨发生、发展和消亡的过程,数值上表现为累积降雨量在降雨历时上的时程分配。为消除降雨特征量的影响,使得降雨强度随着时间的变化是唯一影响不同降雨雨型的因素,首先需要对场次降雨时间序列进行标准化处理。

针对每场降雨,分析场次降雨的总降雨历时、总降雨量、累积降雨历时和累积降雨量。将累积降雨量除以总降雨量作为纵坐标,将累积降雨历时除以总历时作为横坐标,得到降雨过程的量纲-累积降雨曲线,将量纲-累积降雨历时起点取0,终点取1,等间距0.05分为21等分,得到21个相应的累积降雨百分率,完成样本标准化。由于标准化样本的第1和第21个累积降雨百分率为0和1,对分类结果的差异无贡献,为冗余特征。因此,保留具有代表性的第2~第20个累积降雨百分率值作为自变量特征。场次降雨时间序列的标准化过程如图4所示。

基于机器学习的雨型分类研究:以淠河流域为例

图4 场次降雨时间序列的标准化过程

经过样本标准化处理,形成了一套包括5 710个样本集,19个特征变量的数据集。为便于机器学习模型进行识别。对19个自变量特征设置了标签,分别为T1,T2,…,T19,因变量标签以DTW模板雨型分类结果为标准,划分为1~7个类别,通过分析场次降雨的最大雨强、雨峰位置、总雨量特征等,充分保证测试集和训练集分布均匀,且与整体雨型分布特征相近,人工选取80%作为训练集,20%作为测试集,对淠河流域降雨雨型进行多分类。淠河流域全体样本、训练集和测试各雨型占比情况如图5所示。

基于机器学习的雨型分类研究:以淠河流域为例

图5 淠河流域全体样本、训练集和测试各雨型占比分布

考虑到样本的数量可能对分类结果产生一定影响,同时设计500个、1 000个、2 500个、5 000个样本集,训练集和测试集均与全体样本的划分标准、模型参数(除SVM采用自动超参数优化外)相同,迭代次数做相应调整。对结果进行对比分析。

2.2 模型建立与测试

2.2.1 模型框架

本文搭建的分类模型运行在64位Windows10操作系统上,LSTM和LightBGM的开发平台为Python 3.6.8+JetBrains Pycharm, 其中LSTM软件框架为TensorFlow, LightBGM使用LGBMClassifier算法;决策树的开发平台为Jupyter Notebook, SVM开发平台为Matlab 2022,使用Fitcsvm算法。

2.2.2 模型参数

根据四种分类模型的算法特性和调参经验进行参数初始值设置。DT构建模型时,特征选取方法为信息增益,特征划分点选择方式为最优点划分,最大树深度为8,节点再划分所需最少样本数为20,叶子节点所需最少样本数为10。LSTM模型结构设置为5层,包含1个输入层、3个隐藏层、1个输出层,其中每层32个神经元。模型构建后的输入特征为19维,输出特征为7类。采用的学习优化器为“adam”,学习率取0.1,损失函数为多分类交叉熵函数,批处理样本数为64个,迭代200次;SVM模型算法参数设置中,核函数采用“Gaussian”,损失函数为交叉熵函数,采用超参数优化模块对框约束“boxconstraint”和内核比例参数“kernelscale”以最小化交叉验证损失为目标优化求解。LightGBM算法共设置了6个参数,分别为:提升树类型 “gbdt”、拟合树木棵树100、学习率0.1、最大树深度5、树最大叶子数31、目标 “multiclass”多分类。

2.3 模型评估

本文主要采用混淆矩阵(confusion matrix)和Loss函数来评估四类分类模型的性能。混淆矩阵是机器学习中用来总结分类模型结果的一种分析表,表中每列代表分类类别,每行代表数据的真实类型,对角线的数值则代表被分类的正确样本数量,混淆矩阵对角线的数值越大、颜色越深,则模型的分类性能越好;同时,混淆矩阵衍生的如准确率、精确率、召回率、F1-score是机器学习中必不可少的模型评价指标。由于本文采用的模型为多分类,所以按照宏平均(macro-average)规则,即分别计算每个类别的精确率、召回率与F1-score, 然后求均值。Log-loss指标的理论基础是信息熵,其数值越大,表示冗余噪声越多,则会削弱分类模型的准确性。

3 结果与分析评价

3.1 DTW降雨雨型分类结果

通过表1图6可知,淠河流域降雨类型以单峰型降雨为主,其中第Ⅲ型中期洪峰单峰型和第Ⅱ型后期洪峰单峰型,分别占降雨场次总数的27.95%和20.12%;其次为第Ⅳ型均匀降雨,降雨场次占降雨事件总数的20%;流域内双峰型降雨较少发生,其中第Ⅵ型降雨占降雨事件总数的11.86%,第Ⅴ和Ⅶ型双峰型降雨仅分别占降雨事件总数的3.38%和3.36%。

基于机器学习的雨型分类研究:以淠河流域为例

基于机器学习的雨型分类研究:以淠河流域为例

图6 淠河流域各雨型占总场次百分比

3.2 四种机器学习分类结果对比分析

四种分类方法的精度评价如表2所列,对分类结果的混淆矩阵进行可视化,得到的结果如图7所示。损失收敛情况如图8所示。

基于机器学习的雨型分类研究:以淠河流域为例

基于机器学习的雨型分类研究:以淠河流域为例

图7 四种分类算法的混淆矩阵

基于机器学习的雨型分类研究:以淠河流域为例

图8 LightGBM、LSTM和SVM分类模型损失收敛图

以DTW雨型分类结果为参考基准,如表2和图7所示,从精确度和视觉角度上看,四种分类模型均取得了比较满意的分类精度和效果,其中LightGBM分类方法对雨型分类数据集的准确率、精确率、召回率和F1-score值最高,准确率和F1-score较LSTM分类方法分别提升了0.18%和0.27%,比SVM提升了1.32%和1.26%,比DT提升了3.6%和5.4%。在混淆矩阵中,四种模型均存在一定的混分现象,且混分对象不完全一致,但LightGBM模型的矩阵对角线数值大,颜色相对深。由此看出,LightGBM算法各指标都有一定提高,在雨型分类精确度和效果上表现相对突出。

LightGBM与LSTM模型的分类精度相近,但训练效率却远高于LSTM模型。LightGBM分类模型中测试集的最优交叉熵Loss由初始的1.321 2迭代20次后收敛至0.044 4。LSTM分类模型初始准确率较低,Loss值较高,随着迭代次数增多,Loss函数值逐步降低,最终200次迭代后,Loss值降至0.080 9,模型基本趋于稳定,训练耗时较长。相较于LightGBM模型,LSTM本身的模型结构相对复杂,循环网络的特性决定了模型不能很好地并行化处理数据,同时参数多,所以训练效率相对低下;SVM模型的分类精度略低于LightGBM和LSTM,借助二次规划求解支持向量,会涉及m阶矩阵的计算,同时对参数进行交叉验证损失最小的超参数优化,数据量较大,耗费大量的内存和运算机时,且不易找到最优的核函数和分类参数。SVM的分类效率介于LightGBM和LSTM之间。与以上三种分类模型相比,DT的分类效果最差,但训练速度较快,这与其模型结构简单、参数较少有关。以往研究表明,DT针对小规模、自相关性不强的数据集分类效果较好。本研究中的降雨雨型数据集为自相关性和互相关性较强的时间序列,DT分类表现一般,验证了相关研究结论。

在雨型数据集中,第Ⅲ型和第Ⅱ型降雨的样本数分别占总体的27.95%和20.12%,第Ⅴ和Ⅶ型降雨仅分别占总数的3.38%和3.36%。各类别样本量分布不均衡,各雨型不同分类模型召回率如表3所列列,第Ⅲ型和第Ⅱ型降雨的召回率为97.47%和99.26%,第Ⅴ型和Ⅶ型的召回率仅为94.70%和92.19%。这说明样本的分布不均衡情况将会影响模型的分类精度。在第Ⅴ型和第Ⅶ型雨型分类中,LightGBM模型召回率分别为96.97%和93.75%,分类误差较低,说明即使在不均衡数据上也可以取得较好的分类效果。

基于机器学习的雨型分类研究:以淠河流域为例

综合模型分类精准度、效果、训练效率和稳定性来看,相对其他三种模型,LightGBM算法精度最高、分类效果好,训练效率高,应对不均衡数据稳定性良好。因此,在淠河流域开展雨型分类具有较强的适用性。

3.3 不同量级样本分类结果对比分析

样本数量由500增加至5 000,四种分类模型的准确率、精确率、召回率和F1-score指标整体上呈现逐步提高的趋势,四种模型不同样本数量下分类精度如图9所示。其中,LightGBM和LSTM模型自样本数量增至1 000后,评价指标增幅不大,DT和SVM随样本数量增加,增幅稳步提升,说明样本数量对分类模型的精确度有着显著的影响。当样本量为500时,SVM准确率优于LSTM、DT模型,精确率最大,随着样本量增加,SVM的准确率和精确率反而较其他三类模型变差,这说明相对于大样本,SVM在处理小样本的分类问题时,具备一定优势。

基于机器学习的雨型分类研究:以淠河流域为例

图9 四种模型不同样本数量下分类精度

整体上看,随着样本集数量的增加,LSTM和LightGBM模型训练集和测试集的Loss函数稳步下降,最终基本稳定达到收敛状态。LSTM和LightGBM模型在小样本时的初始和收敛Loss函数值较大样本时高。以LSTM模型为例,不同样本数量的Loss函数图如图10所示。当样本量为500时,测试集Loss函数初始值1.915 3,迭代收敛速度慢,迭代300次时,收敛为0.518 2;样本量为1 000和2 500时,Loss函数初始值为1.878 6和1.789 8,迭代速度加快,于250次左右达到稳定,收敛至0.368 1和0.250 3。样本量为5 000时,Loss函数初始值1.643 8,迭代迅速,于100次左右基本稳定,收敛为0.104 5。由此说明,在机器学习分类中,样本数量的增加有助于提升分类精度和训练过程的收敛性。

基于机器学习的雨型分类研究:以淠河流域为例

图10 LSTM模型不同样本数量的Loss函数

4 结论与展望

本文在利用DTW方法计算分析淠河流域场次降雨雨型的基础上,基于DT、LSTM、SVM和LightGBM算法构建分类模型。通过分析对比发现,四种机器学习模型在降雨雨型分类中有着较强的泛化性能,得到了相对较好的分类效果。具体结论如下。

(1)淠河流域降雨类型以单峰型降雨为主,其中第Ⅲ型中期和第Ⅱ型后期洪峰均为单峰型,其次为第Ⅳ型均匀降雨,双峰型降雨较少。

(2)LightGBM模型的分类效果整体优于其他三种模型。相比于LSTM和SVM模型,LghtGBM建模简单、支持类别特征的输入,运行速度更快,内存占用更少,学习效率和准确率更高;数据集样本的类别数量分布不均衡将会影响模型的分类精度,LightGBM模型在类别分布不平衡的分类问题中具有较大优势。在实际应用中,可结合实际情况比较和选择适当的分类算法和数据预处理方法,以便更加有效地实现分类目标。

(3)样本数量对分类模型的精确度有着显著的影响,这是因为小样本时,总体分布严重不均衡,在机器学习分类中,样本数量的增加有助于提升分类精度和训练效率。与其他三种模型相比,SVM模型在小样本问题上表现优异,具有较高的分类精度。

综上所述,本研究验证了机器学习模型在雨型分类领域的适用性,扩展了机器学习技术的应用范畴,基于目前的工作,后续可以开展进一步研究:如将一维降雨时间序列拓展为降雨影像图时序高维数据,从而探索利用机器学习方法进行高维时空序列的分类;针对实测降雨数据进行随机模拟,升级数据样本量级,增加噪声数据,探索数据集随机性大、噪声杂乱、类别不平衡条件下的机器学习方法应用效果。


水利水电技术(中英文)

水利部《水利水电技术(中英文)》杂志是中国水利水电行业的综合性技术期刊(月刊),为全国中文核心期刊,面向国内外公开发行。本刊以介绍我国水资源的开发、利用、治理、配置、节约和保护,以及水利水电工程的勘测、设计、施工、运行管理和科学研究等方面的技术经验为主,同时也报道国外的先进技术。期刊主要栏目有:水文水资源、水工建筑、工程施工、工程基础、水力学、机电技术、泥沙研究、水环境与水生态、运行管理、试验研究、工程地质、金属结构、水利经济、水利规划、防汛抗旱、建设管理、新能源、城市水利、农村水利、水土保持、水库移民、水利现代化、国际水利等。

基于机器学习的雨型分类研究:以淠河流域为例

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/83510.html

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信