论文阅读:ECMWF机器学习路线图2021-2030

Posted 旺德福居

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文阅读:ECMWF机器学习路线图2021-2030相关的知识,希望对你有一定的参考价值。

ECMWF 于 2021 年 2 月发布未来十年的机器学习路线图。
Düben, P, Modigliani, U, Geer, A, Siemen, S, Pappenberger, F, Bauer, P, Brown, A, Palkovic, M, Raoult, B, Wedi, N, Baousis, V, 2021, Machine learning at ECMWF: A roadmap for the next 10 years, ECMWF Technical memorandum 878, doi: 10.21957/ge7ckgm
本文“ 正文”章节简要介绍该技术文档的部分内容,底稿来自 Google 翻译,并 结合笔者自己的理解,对部分原文进行调整、删减和重排。如有偏差,敬请批评指正。

正文

数值天气预报和气候服务领域的科学家正探索人工智能 (Artificial Intelligence, AI) 和机器学习 (Machine Learning, ML) 的新能力将会如何改变未来的地球系统科学。但是,研究的范围和速度也带来一些严峻的挑战:
  • 需要建立必要的专门知识

  • 需要开发软件和硬件基础设施

  • 在预报工作流中将机器学习方法与传统模型集成

本技术报告将为未来十年 (2021-2031) 建立路线图 (roadmap),指出所面临的挑战,提供可行的解决方案,并设定步骤。

简介

What, why and how

什么是 AI 和 ML?

AI 是机器展示的智能,与人类展示的自然智能不同。机器学习是对计算机算法的研究,这些算法通过对数据的学习而自动进行改进,无需进行显式编程。机器学习代表与地球系统科学最相关的 AI 子集。
机器学习方法可以分为两类:
监督学习 (Supervised methods)
基于带标记的数据进行学习。比如:
  • 分类:在气压场中是否有热带气旋

  • 回归:伦敦明天预期日降水量是 2.3 mm

地球系统中的大部分机器学习方法都是监督学习,因为更容易配置和解释。
非监督学习 (Unsupervised methods)
基于未标记的数据区分数据样本,例如聚类和降维。非监督学习方法越来越受到关注。

为什么是现在?

AI 和 ML 在很多领域得到越来越广泛的应用。这主要是因为:
  • 数据量:数据量的空前增长使科学家使用常规方法提取所有相关信息变得越来越困难。关于数据处理的常规操作使科学家无法应对业务天气预报在不久的将来可能每天生成的数百 TB 数据。

  • 方法:每天超过 100 篇论文研究 AI 和 ML 背后的知识,针对领域特定需求开发机器学习应用。

  • 硬件:计算硬件的发展使我们可以训练来自数 TB 数据的数十亿可训练参数的机器学习工具。

  • 开源软件:类似 TensorFlow 和 PyTorch 的开源框架,仅需要几百行 Python 代码就可以开发复杂的机器学习应用。

NWP 社区已很好地建立一些机器学习算法和统计模型,例如使用主成分分析,使用可以同样被解释为机器学习的资料同化技术 (Bocquet et al., 2020; Geer, 2021)。但对于深度神经网络等复杂的机器学习技术,地球系统科学依然落后于其他学科。

AI 和 ML 将如何改变 NWP 和气候服务?

地球系统具有非线性行为,可以使用上百 PB 的数据,包括观测资料和模式输出,所以机器学习可以提供一种非常强大的工具,来提高天气和气候预测。
ML 可以被用来:
  • 提高天气和气候模型的计算效率

  • 从数据中提取信息

  • 模式后处理

特别是数据驱动 (data-driven) 的机器学习方法与传统工具相结合时。
在 ECMWF,机器学习在整个数值预报和气候服务的工作流中展示了广泛的潜在应用领域。
ECMWF 目前正在研究或计划研究的机器学习应用,图片来自论文
ECMWF 当前已成功的尝试包括:
  • 资料同化:SMOS 土壤水分陆面资料同化中使用神经网络 (Rodríguez-Fernández et al., 2019),弱约束 4D-Var 框架中的神经网络 (Bonavita and Laloyaux, 2020)

  • 模式:深度学习用于重力波拖曳参数化方案 (Chantry et al., 2021),深度学习模拟器可用于生成切线性伴随 4D-Var 数据同化的模式代码 (Hatfield et al., 2021)

  • 后处理:决策树用于降水集合预报 (Hewson and Pillosu, 2020)

  • 监控:使用机器学习检测 ECMWF 数据服务日志中的异常,属于 ECMWF Summer of Weather Code 2020 中的一个项目

挑战与应对

Challenges for the adoption and effective use of AI and machine learning at ECMWF and how they will be addressed
ECMWF 采纳和有效使用 AI 和 ML 的挑战以及如何应对

领域

机器学习科学家和地球科学领域科学家的关注点不同:
  • ML:通过优化特定目标函数 (例如 48 小时降水 RMSE 减少) 解决数据科学问题

  • Earth:通过物理解释和检查物理一致性 (例如守恒定律或过程反馈) 提高和验证模型

领域科学家在 ML 方面有时会采取防御措施,因为他们将新功能视为威胁而不是对自己工具箱的扩展。部分领域科学家不信任没有物理解释的黑盒模型 (black box),当前应用的机器学习模型为其它领域开发,无法在模型设计阶段引入领域知识。
存在一种风险,即面向特定应用的解决方案将在领域科学家和机器学习科学家间并行开发,而没有协同。
应对
合作开发用于业务的物理一致的 ML 解决方案,充分利用高级 ML 新工具箱的全部潜力,补充现有基于物理的解决方案。
Explainable AI 和  physics-informed machine learning 试图将 ML 与物理知识相结合,以实现物理上更一致的解决方案 (McGovern et al., 2019; Reichstein et al., 2019)。
将探索  trustworthy AI,增进我们对机器学习方法工作方式的理解,为黑盒提供一些启示。

定制解决方案

地球系统科学中的一些机器学习应用与其他领域应用的机器学习方法在概念上非常相似,例如在模式输出中识别热带风暴可以当成一个图像识别任务。
但许多任务需要定制化的机器学习解决方案 (customised machine learning solution)。例如:
  • 水平网格:物理场可能是不规则的网格,无法在空间和时间范畴内直接简单应用卷积,而这种卷积是很多机器学习方法的核心元素。

  • 垂直结构:虽然大气的垂直维度是结构化的,但物理场在地面和模式层顶依然显示非常不同的动力特征,同样无法使用标准的卷积方法。

  • 物理约束:物理场需要遵循物理约束,例如守恒定律,或限制为正值 (例如降水)

应对
面向领域特定问题开发定制化的机器学习解决方案,例如在神经网络中对不规则网格进行卷积。定制方法可以作为基准解决方案 (benchmark solution),适用于不同的机器学习应用。
构建定制方案的最快速路径是开发基准数据集和问题,包括:
  • 数据集

  • 代价函数

  • 示例解决方案

允许来自不同团体和机构的机器学习科学家对机器学习解决方案进行定量比较 (例如 WeatherBench in Rasp et al., 2020)。

观测

机器学习模型不仅应用于模拟或加速模式组件,但也应该用于改进模式。通常需要从地球系统观测中训练机器学习工具,也就是将模型轨迹与相同时空物理情况的观测结果进行比较。但很难从地球系统观测中学习,因为它们稀疏、不规则、不确定,从多种仪器 (包括卫星辐射) 中提取,通常无法直接与模式场进行比较。
应对
联系模式模拟和地球系统观测的最佳方式是资料同化 (data assimilation)。ML 和 DA 有很多共同点,因此地球系统科学的 ML 应在许多情况下适应 DA 的工作流 (Geer, 2021)。例如:
  • 使用观测误差表示不同程度的不确定性

  • 使用观测算子将规则模式网格映射到不规则网格

  • 观测稀疏化

  • 使用物理组件或层将物理约束强加于其它机器学习网络上

已经有许多有趣的机器学习应用,与结构化数据集一起使用,可以改善对观测结果的处理 (例如使用观测算子) 和资料同化 (例如通过学习模型或观察误差)。
需要密切关注当前对卫星观测映射到地表的改进 (通常基于机器学习),因为它们为提高陆面参数化提供了新机会,可以作为地球表面附近大气动力的参考值。
机器学习对于从物联网 (Internet of Things, IoT) 和其他数据源提取信息非常必要,可以补充当前的地球观测。例如
  • 交通流量

  • 能源生产

  • 运输分析

物联网数据通常比较嘈杂,但可用量非常大,因此很难使用常规方法进行处理。

数据

机器学习工具需要  数据
影响机器学习方法准确性的限制因素:
  • 可用于训练的数据量

  • 计算资源

  • 数据处理基础设施

ML 用户倾向于进行数量更大和更有选择性的数据访问,例如从全球的某区域检索长时间序列的单个要素场数据。
应对
ECMWF 的计算基础设施需要为高性能数据分析 (High Performance Data Analytics, HPDA) 和逐渐增长的数据驱动科研而准备。这需要一系列的努力,探索应用于未来高性能计算的异构硬件,以降低处理大规模数据的 I/O 瓶颈。
为了缓冲由于机器学习而引起的数据需求增长,数据工作流的组织方式应允许轻松访问最重要的要素场和数据产品,并考虑到数据存储和访问的异构硬件选项 (例如,磁带或光盘)。需要预知数据访问的模式,因此这需要机器学习社区的参与。
可以覆盖大部分用户请求的基准数据集的生成,以及已经组装好的现有数据集的通信,应该会进一步减少科学家自己组装大数据的需求。

工具

相对于传统方法,机器学习使用不同软件和硬件工具集。
  • Earth:大部分基于 Fortran 代码,通常运行在基于 CPU 的超算硬件平台

  • ML:通常基于 Python 代码和 Python 库,包括 Jupyter Notebooks,在 GPU 硬件平台上有最佳的训练和使用效率

监督学习的大部分计算成本由机器学习工具的训练产生,而工具的应用 (接口) 通常非常高效。
作为提高代码可移植性的代码重构的一部分,模式现在被改写为特定领域的语言,在某些情况下还改写为 Python 或 Julia 代码 (Bauer et al., 2020),包括 Finite Volume 版本的 IFS (IFS-FVM)。但是,还需要几年的时间才能使这些进展到达大部分领域科学家。
应对
需要培训,以支持 ECMWF 的领域科学家开始使用 ML 工具,并促进在新软件环境中的平稳启动。领域科学家需要得到有效工具和定制解决方案的支持,以使新环境中的第一步变得更容易 (例如,将 GRIB 或 NetCDF 数据读取到 Python 中)。机器学习软件快速发展领域的趋势需要得到监控,解决方案也需要进行调整。
需要面向机器学习的硬件环境,而不是面向传统方法优化的基于 CPU 的硬件。同时也需要在所有计算硬件中安装相关的机器学习软件,从桌面电脑到超级计算机。

集成

需要将机器学习与传统 NWP 和气候服务工作流集成的解决方案。例如,将 Python 编写的 ML 工具与 IFS 中的 Fortran 代码集成非常困难。而且,目前仍然没有在准备业务模式新循环时如何更新需要调整的机器学习工具的经验。
应对
为了减少总体工作量,需要集中式软件解决方案,在 ECMWF 的工作流中集成机器学习和传统工具。应用集中式解决方案时,需要为领域科学家提供支持,并且解决方案必须与 ECMWF Scalability Porject 在模式可移植性方面的工作保持一致。

组织

机器学习是一项新技能,需要在诸如 ECMWF 的机构中开发和建立。虽然机器学习经验仍然有限,但它也分散在 ECMWF 的整个工作流中,这使得在不同背景下 (例如森林大火或参数化方案模拟) 应用新方法 (例如复杂决策树) 时,所涉及的先驱科学家之间合作和知识交流具有挑战性 。
此外,机器学习解决方案仍然很脆弱,因为它们取决于开发解决方案的单个科学家或外部合作者的专业知识。这使得难以保证业务天气预报和气候服务所需的可复现 (reproducibility) 水平。
应对
为了协调不同机器学习工作,并保证解决方案的可复现性,需要一个专家团队来指导和支持单个科学家使用机器学习方法,并组织集中式软件解决方案。团队需要努力确定需求,并沟通当前为满足这些需求而做出的努力。它需要向个人展示高可用性、可以应对个人挑战的灵活性,但要尊重现有的组织结构。

现状

First steps done
合作
ECMWF 已与很多外部伙伴合作,探索整个 NWP 工作流中机器学习的潜在应用领域 (译者注:参见附件中的表格,本文省略)。
ECMWF 已参加多项会议,发表或等待发表多篇相关论文。
硬件基础设施
在新的 HPC 和 European Weather Cloud 为机器学习应用准备 GPU 硬件。因为许多机器学习工具的交互式开发在云硬件中进行,允许使用 Python、Jupyter Notebook 或 Julia 进行交互开发,并以可扩展的方式使用高端硬件,European Weather Cloud 已成为未来机器学习训练和应用的重要资源。
软件基础设施
ECMWF 参与创建天气和气候模式机器学习应用的第一个基准数据集 (Weatherbench; Rasp et al., 2020)。ECMWF 的进一步贡献正在进行中,包括
  • WMO 项目 S2S 预测

  • 与 EUMETNET 合作的后处理框架

  • GEWEX 框架内的陆面模式

除了使用 Python 的现有活动 (例如通过培训和数据 API) 之外,ECMWF 还发起了一项名为 CliMetLab 的计划,该计划专门用于支持机器学习应用,简化对气候和气象数据集的访问。
http://climetlab.readthedocs.io/
CliMetLab 包括将数据从 ECMWF Meteorological Archival and Retrieval System (MARS) 和 Copernicus Climate Change Service Climate Data Store (CDS) 导入到 Python 环境中,并使用户可以专注于科学而不是技术问题,例如数据访问和数据格式。
研讨会
ECMWF 还组织多项研讨会,包括:
  • 1st Artificial Intelligence for Copernicus Workshop

  • the ECMWF-ESA Workshop on Machine Learning for Earth System Observation and Prediction

  • 2020 年机器学习系列研讨会

2020 年,ECMWF 已为工作人员举办一门高级培训课程和四门入门培训课程,以建立内部研究需要的机器学习知识。
基金项目
ECMWF 也与外部机构保持合作,并参与多个基金项目,包括:
  • Center of Excellence in Weather & Climate Modellin

  • MAELSTROM under EuroHPC-JU

  • AI4Copernicus under H2020-ICT

  • CLINT H2020-LC

路线:远景

How to progress - the big picture
目标
ECMWF 旨在能够在未来几年中充分利用机器学习,并展示机器学习如何适应、受益或替代现有的核心技术,以改善 NWP 和气候服务。为了实现这一目标,ECMWF 将继续实现五个主要目标:
论文阅读:ECMWF机器学习路线图2021-2030
图片来自论文
  • 提升模式

  • 软硬件

  • 合作

  • 定制化解决方案

  • 培训

然而,ECMWF 也会指出当前地球系统模型机器学习的局限,例如:
  • 非线性系统的表示

  • 黑盒方法的物理一致性

  • 机器学习方法无法超越现有方法的应用领域

科学研究
由于针对天气和气候建模的复杂机器学习工具仍处于早期探索阶段,ECMWF 将促进对机器学习方法的科学研究。这些应用对地球系统科学意义重大,但同时又应该小到可以与不同机器学习解决方案进行定量比较。对数据使用和机器学习工具复杂性而言,当探索 physics-informed machine learning 和 trustworthy AI 以及结合传统工具和机器学习工具的混合建模方法时,可管理的问题将会快速发展。小问题也将在探索不确定性量化和不确定性表示以及开发针对特定领域问题的定制机器学习解决方案时有所帮助,例如使用图神经网络 (Graph Neural Networks) 在球体上的非结构化模型网格上进行卷积。
大型 ML 方案
同时,使用数百万个可训练参数的大规模 ML 解决方案正在被测试和开发,这些参数能够将全球大气的三维状态作为输入,从数 TB 的数据中进行训练并需要使用超级计算机。这对于探索地球系统模式中新工具的局限性和潜力,以及为将来的大规模机器学习应用做好准备是必要的,特别是因为机器学习对 HPC 基础架构的未来发展具有根本影响。

路线:里程碑

How to progress - specific milestones
论文阅读:ECMWF机器学习路线图2021-2030
ECMWF 机器学习开发的时间线,包括所有里程碑,图片来自论文
译者注:简要汇总

未来 5 年

  • 聚焦机器学习的会议

  • 合作机制

  • 硬件

  • 软件

  • 内部团队

  • 培训

  • 数据集

  • IoT 数据

  • ML 工作流

    • 数据检索

    • 数据预处理

    • 机器学习训练

    • 模型评估

    • IFS 内的接口

  • 集成到业务工作流

  • ML 加速传统模型计算效率

未来 3 年最有可能进入业务流程的机器学习领域:
  • 观测资料处理 (SMOS 项目)

  • 观测算子

  • 资料同化中的偏差订正 (Bonavita and Laloyaux, 2020)

  • 物理参数化方案的模拟,有关重力波拖曳和辐射的工作,包括生成切线性伴随模式代码

  • 集合预报后处理 (Baran et al., 2020; Hewson and Pillosu, 2020; Groenquist et al., 2020)

  • 作业调度或 HPC 系统异常检测

另外的工作还包括:
  • IFS 中耦合 Fortran 代码和机器学习库的高效解决方案

  • IFS 垂直方向的机器学习应用

  • 非结构化立方八面体 reduced Gaussian 网格上的三维应用

这些工作将会被测试,并在结果可信时推向业务应用。

2031 年远景

未来将越来越难区分机器学习科学家和领域科学家,并且从现在起十年后,将不再可能确定最初用于机器学习应用的工具。我们的愿景是,到 2031 年,机器学习将完全集成进 NWP 和气候服务,并且在工作流的许多领域改进并使用预报。
数据检索
对机器学习的数据检索特殊需求已广泛了解,并对数据处理进行调整,已满足这些需求,仅对数据请求进行有限的重复,就可以为用户组中的所有用户提供所需数据。
定制解决方案
针对天气和气候模式的许多应用领域开发定制的机器学习解决方案,可作为该领域新机器学习应用的蓝图。
诊断工具
基于 trustworthy AI 建立诊断工具,为地球系统科学家探索和理解复杂机器学习解决方案的功能,理解如何将物理约束与神经网络的设计和训练相结合。
方便使用
最终,对于相关领域科学家而言,使用复杂机器学习工具将如同使用插值工具将数据插值到不同分辨率一样简单和常见。
集成
终端用户的机器学习解决方案可以集成到 ECMWF 的 NWP 和气候服务工作流中,以避免繁重的数据处理,并允许交互使用。

总结

遵循本路线图中概述的步骤,将使 ECMWF 能够为科学家和分析人员不断发展的需求做准备,以朝着更加以数据为驱动力的工作流发展,并支持成员国和合作国尽快充分利用机器学习的新功能。
路线图的范围将根据欧盟 Destination Earth 计划的未来发展进行调整,该计划将人工智能和机器学习作为开发 Digital Twins of the Earth system 的主要组成部分之一。
Digital Twin on Weather-induced and Geophysical Extremes
显示对机器学习应用的特殊需求:
  • 提高模式效率,特别是通过将机器学习预处理器用于线性求解器或使用神经网络对模式组件进行仿真

  • 提高局部预测的质量,例如,通过局部降尺度,偏差订正和不确定性量化

  • 将最终用户的定制交互式应用引入预测工作流,例如,通过在仿真过程中自动检测特征

Digital Twin on Climate Change Adaptation
机器学习将使人们能够从大型数据集中更有效地提取信息,或者通过无监督学习来了解因果关系和物理连通性。
ECMWF 的机器学习工作也将与 ESA 当前使用地球观测来改进可用于建模的全球地图的努力保持一致,并有可能增强 ECMWF 的资料同化工作。这些地图将有助于开发更好的陆面参数化,并评估这些参数化所需的复杂性,例如在全球模拟中开发 urban tile。

参考文献

译者注:摘选部分参考文献
数据集
Rasp, S., P. D. Dueben, S. Scher, J. A. Weyn, S. Mouatadid & N. Thuerey, 2020: WeatherBench: A benchmark dataset for data- driven weather forecasting. Journal of Advances in Modeling Earth Systems, 12, e2020MS002203, https://doi.org/10.1029/2020MS002203
资料同化
Bocquet, M., J. Brajard, A. Carrassi & L. Bertino, 2020: Bayesian inference of chaotic dynamics by merging data assimilation, machine learning and expectation-maximization. Foundations of Data Science, 2(1), pp. 55-80.
Geer, A. J., 2021: Learning earth system models from observations: Machine learning or data assimilation? Phil. Trans. A. In press (preprint: https:/doi.org/10.21957/7fyj2811r).
后处理
Hewson, T. & F. Pillosu, 2020: A new low-cost technique improves weather forecasts across the world. arXiv:2003.14397v1.
Grönquist, Peter, et al., 2020: Deep Learning for Post-Processing Ensemble Weather Forecasts. Phil. Trans. A.
Vannitsem, S. et al., 2020: Statistical Postprocessing for Weather Forecasts – Review, Challenges and Avenues in a Big Data World. Bull. Am. Meteorol. Soc., doi: https://doi.org/10.1175/BAMS-D-19-0308.1
模型解释
McGovern, A., R. Lagerquist, D. John Gagne, G. E. Jergensen, K. L. Elmore, C. R. Homeyer & T. Smith, 2019: Making the Black Box More Transparent: Understanding the Physical Implications of Machine Learning. Bull. Am. Meteorol. Soc., 100, 2175–2199, https://doi.org/10.1175/BAMS-D-18-0195.1.
Reichstein, M., G. Camps-Valls, B. Stevens et al., 2019: Deep learning and process understanding for data-driven Earth system science. Nature, 566, 195–204, https://doi.org/10.1038/s41586-019-0912-1.

讨论

机器学习可能是目前最火热的气象与计算机交叉领域,无论处在气象服务链条上的哪个部分,都有与机器学习相关的研究。
ECMWF 的这篇技术文档可以作为一篇很好的指南,展示未来一段时间内气象领域有哪些与机器学习相关的工作,有哪些可以进一步研究的方向。
作为 NWP 业务系统运维人员,笔者也需要思考如何能让自己的工作向机器学习靠拢,争取搭上这个快速发展领域的快车。
下图是对正文第一幅图的翻译,显示 ECMWF 目前正在研究或计划研究的机器学习应用,包括 NWP 流程中的四个主要步骤 (观测、同化、模式和产品) 和所有流程都需要使用的基础设施层。
ECMWF 目前正在研究或计划研究的机器学习应用,根据论文图片重新绘制
可能与笔者工作有关的部分按相关度从高到低排序有三项:
  1. 基础设施:最适合

想要快速介入机器学习领域,专注数据处理,完善软件基础设施,可能是最佳的选择。
自动化运维:将成熟的基于机器学习的运维监控技术引入到 NWP 业务系统监控中,可以提高整个系统的自动化运维水平。不过从事 NWP 运维的同行不多,可供参考的文献较少,缺乏有效的指导。
数据工具:构建类似 CliMetLab 的工具,提供数据访问、加载、处理等常用功能,搭建从原始数据到机器学习方法的数据桥梁。
数据平台:虽然数据管理将由气象大数据云平台来实现,但仍然可以对基础平台进行二次封装,提供方便使用的数据接口。当然也需要继续研究分布式数据存储和处理方法,满足单位对数据访问的各项需求。
  1. 后处理与分发:可能涉及

想要体验激动人心的机器学习算法,后处理领域也许是个不错的选择。
统计后处理:单位已有多个部门进行研究,领域内也有大量的文献可以学习。
模式诊断:单位已开展相关研究。笔者了解不多,在 ESMValTool 工具中有使用统计学习的诊断方法。
  1. 观测:难度较大

想要加入到模式研发的大家庭中,给工作增加不一样的挑战,也许可以从观测资料领域入手。
机器学习也许是 NWP 运维人员转型研发工作的一个绝佳机会。

参考

论文原文
https://www.ecmwf.int/en/elibrary/19877-machine-learning-ecmwf-roadmap-next-10-years
相关文章


题图由 Ylanite Koppens 在 Pixabay 上发布。
祝大家情人节快乐!

以上是关于论文阅读:ECMWF机器学习路线图2021-2030的主要内容,如果未能解决你的问题,请参考以下文章

未来10年ECMWF在机器学习领域的发展计划

ECMWF未来10年的机器学习计划研讨会(1.26)

ECMWF已经开展的机器学习算法应用情况(Observations)

论文阅读|《强化学习在加工时间可变的机器人流水车间调度中的应用》

近千篇机器学习 & 自然语言处理论文!都这儿了

史上最全!近千篇机器学习&自然语言处理论文!都这儿了