使用气流进行实时工作编排
Posted
技术标签:
【中文标题】使用气流进行实时工作编排【英文标题】:Using airflow for real time job orchestration 【发布时间】:2018-07-20 20:41:53 【问题描述】:我有一个作为 Web 服务运行的应用程序,它根据用户请求向 Spark 提交作业。需要限制每个用户的作业队列。我计划使用 Airflow 作为编排框架来管理作业队列,但是虽然它支持并行 DAG 执行,但它针对批处理而不是实时进行了优化。 Airflow 是否旨在通过多个队列(每个用户一个)处理每秒约 200 次 DAG 执行,还是我应该寻找替代方案?
【问题讨论】:
【参考方案1】:您是否将数据从一项任务转移到另一项任务?自从您提到实时以来,时间在这里是否重要。使用 Airflow,预计工作流程大部分是静态的或缓慢变化的。主要用于 ETL 批处理,您可以加快气流心跳,但最好有一个 POC 与您的用例进行测试。 以下来自Airflow官方文档:https://airflow.apache.org/#beyond-the-horizon
Airflow 不是数据流解决方案。任务不会从 一个到另一个(尽管任务可以交换元数据!)。气流不 在 Spark Streaming 或 Storm 空间中,更可与 Oozie 相媲美 或者阿兹卡班
【讨论】:
以上是关于使用气流进行实时工作编排的主要内容,如果未能解决你的问题,请参考以下文章