⼯作流调度系统——Azkaban

Posted 2022-06-15 小企鹅推雪球!

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了⼯作流调度系统——Azkaban相关的知识，希望对你有一定的参考价值。

文章目录

Azkaban介绍

Azkaban是由linkedin（领英）公司推出的⼀个批量⼯作流任务调度器，⽤于在⼀个⼯作流内以⼀个特定的顺序运⾏⼀组⼯作和流程。
Azkaban使⽤job配置⽂件建⽴任务之间的依赖关系，并提供⼀个易于使⽤的web⽤户界⾯维护和跟踪你的⼯作流
Azkaban定义了⼀种KV⽂件(properties)格式来建⽴任务之间的依赖关系，并提供⼀个易于使⽤的web⽤户界⾯维护和跟踪⼯作流。
Azkaban主要特点有：Web⽤户界⾯，⽅便上传⼯作流，⽅便设置任务之间的关系，调度⼯作流
Azkaban的架构角色
1. mysql服务器: 存储元数据，如项⽬名称、项⽬描述、项⽬权限、任务状态、SLA规则等
2. AzkabanWebServer:对外提供web服务，使⽤户可以通过web⻚⾯管理。职责包括项⽬管理、权限授权、任务调度、监控executor
3. AzkabanExecutorServer:负责具体的⼯作流的提交、执⾏。

Azkaban使⽤

shell command调度

创建job描述文件，

command.job
type=command
command=echo 'hello'

将job资源⽂件打包成zip⽂件并通过azkaban的web管理平台创建project并上传job压缩包
执行job

job依赖调度

创建有依赖关系的多个job描述

第⼀个job：foo.job
type=command
command=echo 'foo'

第⼆个job：bar.job依赖foo.job
type=command
dependencies=foo
command=echo 'bar'

将所有job资源⽂件打到⼀个zip包中，在azkaban的web管理界⾯创建⼯程并上传zip包
执行job

HDFS任务调度

创建job描述⽂件

type=command
command=/opt/servers/hadoop-2.9.2/bin/hadoop fs -mkdir /azkaban

将job资源⽂件打包成zip⽂件，通过azkaban的web管理平台创建project并上传job压缩包
执行job

MAPREDUCE任务调度

mr任务依然可以使⽤command的job类型来执⾏

创建job描述⽂件，及mr程序jar包

type=command
command=/opt/servers/hadoop-2.9.2/bin/hadoop jar hadoop-mapreduceexamples-2.9.2.jar wordcount /wordcount/input /wordcount/azout

将所有job资源⽂件打到⼀个zip包，在azkaban的web管理界⾯创建⼯程并上传zip包
启动job

HIVE脚本任务调度

创建job描述⽂件和hive脚本

Hive脚本： test.sql

use default;
drop table aztest;
create table aztest(id int,name string) row format delimited fields terminatedby ',';

Job描述⽂件：hivef.job

type=command
command=/opt/lagou/servers/hive-2.3.7/bin/hive -f 'test.sql'

将所有job资源⽂件打到⼀个zip包中创建⼯程并上传zip包,启动job

以上是关于⼯作流调度系统——Azkaban的主要内容，如果未能解决你的问题，请参考以下文章