一个Netflix开发的微服务编排引擎，支持可视化工作流定义

Posted 2023-01-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了一个Netflix开发的微服务编排引擎，支持可视化工作流定义相关的知识，希望对你有一定的参考价值。

Netflix内容平台工程团队支撑了许多业务，这些业务流程由微服务任务异步驱动的。其中一些任务是持续数天的长期进程。这些进程在为全球观众提供字幕方面发挥着至关重要的作用。

比如：

Studio合作伙伴内容集成
来自合作伙伴的基于IMF的内容集成
在Netflix中设置新标题
接收内容，编码和部署到CDN

传统做法中，这些进程是临时编排的，使用pub/sub 组合起来，直接进行REST调用，并使用数据库来管理状态。然而，随着微服务数量和流程复杂性的增加，如果没有中央协调器，就无法了解这些分布式工作流（workflow）。

我们将Conductor“作为编排引擎”构建，以满足以下需求，在应用程序中消除了模板，并提供反应流：

使用基于JSON DSL 的蓝图定义执行流程。
跟踪和管理工作流。
能够暂停，恢复和重新启动进程。
用户界面可视化处理流程。
能够在需要时同步处理所有任务。
能够扩展到数百万个并发运行的流程。
由客户端提取出来的的队列服务支持。
能够通过HTTP或其他方式操作，例如GRPC。

Conductor旨在满足上述需求，现在已在Netflix使用了将近一年。迄今为止，它调度超过260万个工作流，从简单的线性工作流到运行多天的非常复杂的动态工作流。

如今Conductor已经开源，我们希望Conductor可以服务于有类似需求的场景，并提升其能力。你可以在此处找到Conductor的开发人员文档。

为什么不进行点对点编排？

随着业务需求和复杂性的增长，使用点对点任务编排会难以扩展。发布/订阅模型适用于最简单的流程，也有一些问题：

流程分散在多个应用程序的代码中
通常围绕输入/输出，SLA等存在紧密耦合和假设，PUB/SUB难以适应不断变化的需求
几乎没有办法系统地回答“设置电影还有什么没完成”？

为什么是微服务？

在微服务领域，许多业务流程自动化都是通过协调服务来实现的。Conductor支持跨服务的协调，同时提供交互式控制和可视性。能够跨进行微服务协调，有助于我们利用现有服务构建新流程或更新现有流程，从而非常快速地普及Conductor。

架构总览

一个Netflix开发的微服务编排引擎，支持可视化工作流定义_UI

引擎的核心是状态机服务，即Decider服务。当工作流事件发生时（例如任务完成，失败等），Decider将工作流蓝图与工作流的当前状态相匹配，识别下一个状态，并安排适当的任务，或更新工作流的状态。

Decider与分布式队列一起使用来管理计划任务。我们使用dyno-queues作为分布式延迟队列，dyno-queues使用dynomite作为K-V存储。该队列已于今年早些时候开源，欲知详情请看这里。

Task Worker实现

task由worker应用程序实现，其通过API层进行通信。woker实现了可由流程引擎调用的REST接口，或者通过定期检查挂起任务的状态来达到此目的。Worker实际上是幂等的无状态函数。轮询模型允许处理worker的压力，并在可能的情况下根据队列深度支持自动伸缩。Conductor提供API以检查worker的工作负载大小。

一个Netflix开发的微服务编排引擎，支持可视化工作流定义_API_02

API层

API通过HTTP公开 - 使用HTTP可以轻松地与不同客户端集成。添加其他协议（例如gRPC）也是很简单的。

存储

我们使用Dynomite作为存储引擎，并使用Elasticsearch来索引执行流程。存储API是可插拔的，可以适用于各种存储系统，包括传统的RDBMS或Apache Cassandra。

关键概念

工作流定义

使用基于JSON的DSL定义工作流。工作流蓝图定义了一系列需要执行的任务。每个任务是控制任务（例如，fork，join，决策，子工作流等）或worker任务（译者注：提供具体的数据处理功能）。工作流定义支持版本，可以灵活地管理升级和迁移。

工作流定义概述：

"name": "workflow_name","deion": "Deion of workflow","version": 1,"tasks": ["name": "name_of_task","taskReferenceName": "ref_name_unique_within_blueprint","inputParameters": "movieId": "$workflow.input.movieId","url": "$workflow.input.fileLocation","type": "SIMPLE",... (any other task specific parameters),...],"outputParameters": "encoded_url": "$encode.output.location"

任务定义

每个任务的行为都由其模板控制。任务定义为每个任务提供控制参数，例如超时，重试策略等。任务既可以是由应用程序实现的worker任务，也可以是由编排服务执行的系统任务。Conductor提供一些开箱即用的系统任务，例如Decision，Fork，Join，Sub Workflows，并且允许加入自定义系统任务的SPI。我们已经添加了对HTTP任务的支持，这有助于调用REST服务。

任务定义：

"name": "encode_task","retryCount": 3,"timeoutSeconds": 1200,"inputKeys": ["sourceRequestId","qcElementType"],"outputKeys": ["state","skipped","result"],"timeoutPolicy": "TIME_OUT_WF","retryLogic": "FIXED","retryDelaySeconds": 600,"responseTimeoutSeconds": 3600

输入输出

任务的输入是一种映射，其作为工作流实例化的一部分或某些其他任务的输出。允许将来自工作流或其他任务的输入/输出作为随后执行的任务的输入。例如，可以将编码任务的输出作为输入提供给发布任务以部署到CDN。

任务输入定义：

"name": "name_of_task","taskReferenceName": "ref_name_unique_within_blueprint","inputParameters": "movieId": "$workflow.input.movieId","url": "$workflow.input.fileLocation","type": "SIMPLE"

具体例子

一个Netflix开发的微服务编排引擎，支持可视化工作流定义_微服务_03