天池大赛|2022江苏气象AI算法挑战赛亚军方案分享
Posted Datawhale
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了天池大赛|2022江苏气象AI算法挑战赛亚军方案分享相关的知识,希望对你有一定的参考价值。
成员介绍
团队:DontMind队
队员:游枭雄,湘潭市气象局副研级高工
队员:李扬,南京信息工程大学
队员:梁钊明,中国气象科学研究院副研究员
赛题解析
本次比赛主要是针对大风/雷达回波/降水的短临预报,属于典型的时空序列预测问题,此类问题可以从分类和回归预测两个角度来解决。
按照各气象要素阈值区间进行分类,可以转化为分类预测问题;
从回归预测的角度又分为单变量回归预测和多变量回归预测。
由于大风和降水预测很难转换为分类预测问题,而且我们经过大量的模型试验表明,多变量回归预测很难同时达到最优,且很难超越单变量回归预测。因此,我们最终采用了单变量回归预测思路,并利用过去一小时数据预测未来两小时各气象要素的时空演变。以下将围绕我们决赛最终采用的模型和策略进行介绍
总体设计思路
数据预处理
数据清洗:去除雷达回波低值伪影以及异常降水值。
样本重采样和降采样:由于数据分布不平衡问题,根据各要素阈值区间分布情况对样本进行重采样和降采样,以平衡不同强度样本占比。
数据集调整:由于所给的数据集中相邻个例仅相差一帧,重复率过高,因此我们将临近个例的间隔调整为5帧,降低样本重叠率,提升模型训练稳定性。
模型选择与优化
风速预测——SEResNet
模型优势
编码器部分采用残差和SE注意力耦合模块提升特征提取能力
解码器部分采取SE注意力模块提升不同特征通道融合能力
优化策略
在编码器采用多分支结构对多变量单独提取特征,在解码器利用SE注意力模块进行权重再分配进行特征融合
雷达回波预测模型——TrajGRU
模型优势
考虑了自然运动的位置可变性,更好的捕捉动态演变
优化策略
采用2倍初始卷积下采样,减轻棋盘效应对清晰度的影响
调整位置动态连接参数为9、7、5,降低显存占用
采用PixelUnShuffle和PixelShuffle替换卷积和反卷积执行上下采样,降低显存占用
降水预测模型:双模型融合
模型一:U2Net
模型优势
引入RSU(Residual U-block)模块,融合不同尺度特征,捕捉不同尺度上下文信息,具有更丰富的细节纹理
优化策略
仅对多尺度融合后的结果计算损失,单层结果不参与损失计算,降低显存占用,加速模型训练
模型二:PhyDNet
模型优势
引入PhyCell循环物理单元通过卷积模拟PDE,对物理动力建模,同时引入实时预测矫正,对数据缺失和长期预测更稳定
基于PhyCell和ConvLSTM构建双分支解缠结构,分别学习物理动力和预测所需的其他未知信息
优化策略
采用大卷积核大步长卷积代替常规卷积,减轻PixelUnShuffle大下采样率导致的棋盘效应问题
采用独立的编码器和解码器,提升模型特征提取和融合能力
采用目标变量输入输出损失和物理正则损失加权,提升模型预测性能
引入scheduled sampling方法,加速模型收敛,优化模型预测
双模型融合:两个模型预测结果取平均
损失函数
针对不同模型,设计不同损失函数,由于本赛题预测对象均有严重不平衡问题,因此针对MSE和MAE类型损失函数需要给与相应权重设置。而DiceLoss本身仅针对目标区域计算损失,因此无需再给定权重。
此外,针对降水,加入了60/90/120min的累计降水的损失作为正则项。
性能提升策略
Two-stage优化:冻结模型部分层,调整损失函数权重,调低学习率,进行模型参数微调,提高强回波/降水的预测技能评分
模型集成:针对降水预测,融合U2Net与PhyDNet预测,提升模型泛化能力和稳定性
偏差订正:考虑了预测能力的时间衰减和阈值的影响,对模型预测进行偏差订正,提高强回波/降水的预测技能评分
总结
样本不平衡:样本重采样+损失加权和正则/类别不平衡损失+Two-stage优化减轻类别极度不平衡导致的强回波/降水难预测问题
模型性能及稳定性:多模型集成进一步提高降水的整体预报技能评分及模型的稳定性
后处理方法:引入模型预测偏差订正后处理方法提高强回波/降水预报技能评分
整理不易,点赞三连↓
以上是关于天池大赛|2022江苏气象AI算法挑战赛亚军方案分享的主要内容,如果未能解决你的问题,请参考以下文章
华为开启2022全球校园AI算法精英大赛 百万奖金等你来挑战算法极限
华为开启2022全球校园AI算法精英大赛 百万奖金等你来挑战算法极限