azkaban工作流调度器

Posted xiaofeiyang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了azkaban工作流调度器相关的知识,希望对你有一定的参考价值。

1、用途

一个完整的数据分析系统通常都是由大量任务单元组成:

shell脚本程序,java程序,mapreduce程序、hive脚本等

各任务单元之间存在时间先后及前后依赖关系

 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:

1、  通过Hadoop先将原始数据同步到HDFS上;

2、  借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;

3、  需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;

4、  将明细数据进行复杂的统计分析,得到结果报表信息;

需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用

2、安装部署

Azkaban Web服务器

azkaban-web-server-2.5.0.tar.gz

Azkaban执行服务器 

azkaban-executor-server-2.5.0.tar.gz

3、解压上面两个压缩包,并且命名为server和executor

mysql -uroot -p
mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /soft/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql;
show tables;

4、

以上是关于azkaban工作流调度器的主要内容,如果未能解决你的问题,请参考以下文章

必知Hadoop工作流引擎调度器--Azkaban与Oozie的区别。

工作流调度器Azkaban的安装配置

工作流调度器Azkaban的安装配置

工作流调度器azkaban(以及各种工作流调度器比对)

工作流调度器azkaban

工作流调度器azkaban