气流操作员从外部Rest API提取数据
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了气流操作员从外部Rest API提取数据相关的知识,希望对你有一定的参考价值。
我正在尝试从外部API提取数据并将其转储到S3上。我正在考虑编写和Airflow Operator rest-to-s3.py,这将从外部Rest API中提取数据。
我的担心是:
- 这将是一个长期运行的任务,如何跟踪故障?
- 比写一个运算符有更好的选择吗?
- 是否建议执行可能会运行几个小时并等待的任务?
我对Airflow还是很陌生,所以会有所帮助。
答案
- 错误-使用气流工具之类的好处之一就是错误跟踪。任何失败的任务都需要重新运行(基于配置),它将在任务历史记录等中保持其状态。另外,您可以根据任务状态进行分支,以决定是否要报告错误,例如发送电子邮件
- 一个运算符听起来像一个有效的选项,另一个选项是内置的PythonOperator并编写一个python函数。
- 长时间运行的任务对于任何设计和工具都是有问题的。您最好将其分解为小任务(也许可以并行执行它们以减少运行时间?)API是否需要花费很长时间来响应?还是打很多电话?也许根据生成的s3文件进行拆分?即每个文件都是不同的DAG /分支?
以上是关于气流操作员从外部Rest API提取数据的主要内容,如果未能解决你的问题,请参考以下文章
启用 API 身份验证时,Apache 气流 REST API 调用失败并出现 403 禁止
python 使用WordPress Rest API从MemberPress提取数据的脚本
将新数据从Node REST API推送到React-Native