ECMWF已经开展的机器学习算法应用情况（Observations）

Posted 2021-04-03 阿宗的科研备忘

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ECMWF已经开展的机器学习算法应用情况（Observations）相关的知识，希望对你有一定的参考价值。

最近，欧洲中心给出了未来十年的发展规划，尤其以机器学习与天气预报的深度结合最为亮眼，还给出了发展规划图。看着这张图，我不禁想起，当年NCL团队也绘制了一张NCL转为Python库的时间路线图，然后。。就没有然后了 ECMWF已经开展的机器学习算法应用情况（Observations）

先来看看欧洲中心目前已经在开展或者在计划中的机器学习算法图：

这张图里提到的很多机器学习算法，我们也都有所应用。这里就按照上图的观测—>数据同化—>数值天气模式—>后处理的顺序，简单介绍一下每种机器学习算法吧。篇幅有限，今天先写观测部分的。

多源观测资料（Observations）：

Automated quality control of analysis: 自动质量控制（质控）。

这部分主要是对卫星、雷达、自动站等传统观测手段，以及激光雷达、风廓线雷达、微波辐射计、风梯度塔等新型观测资料，进行质量控制。

这是最繁杂，也是最重要的一步。因为无论是数据同化、生成分析场进数值模式，还是用来矫正模式结果，抑或是检验预报评分，都离不开高质量的观测资料。

质控一般分为两个方面，一个是错误值的剔除或修正，一个是系统偏差的矫正。

比如说，夏季的南京出现零下温度，冬季的北京出现30℃，这种明显不符合当地该季节多年统计情况的数值，就应该被剔除或者修正。

直接剔除是最简单的，但是也会造成相应的数值缺失。有难度的是修正，传统常用的也就是反距离权重插值，利用附近站点的数据插值生成。而机器学习则可以结合该站周边站点的观测值，以及该站点前期没有出问题的观测值，共同生成该站点的数据。

以温度为例，我们以南京本站测试过，在不引入其他任何气象条件，单纯以小时温度的时间序列，利用循环神经网络RNN进行建模，在没有明显寒潮过程或者晴雨天气切换的前提下，RNN模型预报得出的小时温度基本都是正确的（与实况偏差2℃以内）。也就是说，如果错误的温度值发生在一个与前几日天气现象没有明显变化的情况下，完全可以将周边测站的观测值和RNN预测值相结合，进行联合修正。

突然想起来我们还做过一次3小时能见度预报试验，当时引入了大量的预报因子，包括前期地面及高空气象要素实况，前期环境监测站观测大气污染物浓度，模式预报的各种气象要素和环境产品，结果无论是随机森林还是Adaboost的因子重要性排序，排第一的都是前一天的3小时能见度。。。

所以其实也用不着这么复杂的网络，就按照前一天的情况调整一下当日的分布是不是就可以了

系统偏差的矫正，一般常见于变换观测手段或者观测仪器，又或者是迁站的情况。比如说，2014年中国气象局推进自动化改革，能见度的人工观测逐渐为自动化能见度仪所取代。通过人工同步观测与能见度仪观测的长时间对比，就可以得出自动观测与人工观测的系统偏差。

针对自动观测与人工观测的能见度，目前国内外都是使用比较简单的1:0.75倍换算。而事实上，它们并不是简单的线性关系。如果要深入分析本地自动观测与人工观测的偏差，则使用深度学习算法，比如卷积神经网络，又或者是比较方便快捷的随机森林、Adaboost等算法对二者进行建模，挖掘它们之间更加深入的关系，这样也更具科学性。

除了气象要素的观测资料之外，针对多通道卫星云图、雷达回波的质控则困难很多，而且对于短临预报也更具指导意义。对于雷达基数据的质量控制，重点在于抑制地物杂波、距离去折叠和速度退模糊。这方面我们国内已经有了比较成熟的技术，虽然有时会残留地物杂波，又或者需要人工去折叠、退模糊的情况，但是基本不影响预报员的使用。

但是，如果要将雷达回波引入人工智能模型，那么尽量完全地去除杂波，就显得尤为重要。比如要用光流法来外推雷达回波，总不能连着地物杂波一起推走啊。。我们曾经参加过的解放军总装备部“天智杯”人工智能挑战赛，他们给出的训练集就是一整年的卫星云图、雷达回波和自动站降水资料，而整个预报区域囊括了华东和华南，地形杂波、海浪和云雨杂波的存在，对于雷达回波外推之后反演降水，带来了较大的误差。这里就需要利用卫星云图和降水，通过卷积神经网络，学习杂波的特征，对雷达回波进行联合质控，去除各种光有反射率但不下雨的杂波。

Anomaly detection: 异常检验。

所谓异常检验，就是利用长期的大数据分析，得出这些数据的一些普遍特征，然后再来检验看看近期的观测数据是否符合这些特征，如果不符合，就提示数据异常。

这些特征有些就是简单的统计区间，比如某地10月份的平均温度，日最高、最低温，极端最高、最低温；平均日降水量，最大小时降水量，等等。

还有些特征则涉及到了一些统计学上的分布特征，比如气温的概率分布是大概符合高斯分布的，某地某个季节不同降水量的频率分布一般都不会跟历史平均差太多，风速基本符合韦伯（Weibull）分布。

现在我们会用机器学习算法通过对长时间观测数据的学习，来得到观测数据的特征。用机器学习算法来归纳特征，其主要目的就在于探索出我们现有的知识体系内没有发现的规律，因此我们通常会选用无监督学习的方法，通过快速迭代不同的算法来进行不停地试错，得出数据的特征。不过这些特征就更难以用数字或者是函数来表达了。想到前阵子有个同学，非追着我问模型到底是个什么东西，它到底是个长什么样的方程？于是我截了一段长长的图给她，大概就长这样：（这是我最近做的一个图像识别的残差网络，这里没截全，有那个意思就行。。）

不管这些特征是怎么来的，只要它是经过长期检验的，是大概合理的就行。因为利用机器学习进行异常检验，最重要的就是特征的选取了。然后将近期的观测数据按照特征的要求进行计算，最终与特征比对，看是否符合。如果不符合的话，就报高异常，提示需要修正啦~

以上是关于ECMWF已经开展的机器学习算法应用情况（Observations）的主要内容，如果未能解决你的问题，请参考以下文章