气流操作员从外部Rest API提取数据

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了气流操作员从外部Rest API提取数据相关的知识,希望对你有一定的参考价值。

我正在尝试从外部API提取数据并将其转储到S3上。我正在考虑编写和Airflow Operator rest-to-s3.py,这将从外部Rest API中提取数据。

我的担心是:

  1. 这将是一个长期运行的任务,如何跟踪故障?
  2. 比写一个运算符有更好的选择吗?
  3. 是否建议执行可能会运行几个小时并等待的任务?

我对Airflow还是很陌生,所以会有所帮助。

答案
  1. 错误-使用气流工具之类的好处之一就是错误跟踪。任何失败的任务都需要重新运行(基于配置),它将在任务历史记录等中保持其状态。另外,您可以根据任务状态进行分支,以决定是否要报告错误,例如发送电子邮件
  2. 一个运算符听起来像一个有效的选项,另一个选项是内置的PythonOperator并编写一个python函数。
  3. 长时间运行的任务对于任何设计和工具都是有问题的。您最好将其分解为小任务(也许可以并行执行它们以减少运行时间?)API是否需要花费很长时间来响应?还是打很多电话?也许根据生成的s3文件进行拆分?即每个文件都是不同的DAG /分支?

以上是关于气流操作员从外部Rest API提取数据的主要内容,如果未能解决你的问题,请参考以下文章

启用 API 身份验证时,Apache 气流 REST API 调用失败并出现 403 禁止

从外部 API 播放模型对象

python 使用WordPress Rest API从MemberPress提取数据的脚本

将新数据从Node REST API推送到React-Native

REST API 访问控制从访问令牌中提取主题与从路径参数中提取主题

如何从气流传感器中提取 xcom 值?