azkaban工作流调度器
Posted xiaofeiyang
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了azkaban工作流调度器相关的知识,希望对你有一定的参考价值。
1、用途
一个完整的数据分析系统通常都是由大量任务单元组成:
shell脚本程序,java程序,mapreduce程序、hive脚本等
各任务单元之间存在时间先后及前后依赖关系
为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;
例如,我们可能有这样一个需求,某个业务系统每天产生20G原始数据,我们每天都要对其进行处理,处理步骤如下所示:
1、 通过Hadoop先将原始数据同步到HDFS上;
2、 借助MapReduce计算框架对原始数据进行转换,生成的数据以分区表的形式存储到多张Hive表中;
3、 需要对Hive中多个表的数据进行JOIN处理,得到一个明细数据Hive大表;
4、 将明细数据进行复杂的统计分析,得到结果报表信息;
需要将统计分析得到的结果数据同步到业务系统中,供业务调用使用
2、安装部署
Azkaban Web服务器
azkaban-web-server-2.5.0.tar.gz
Azkaban执行服务器
azkaban-executor-server-2.5.0.tar.gz
3、解压上面两个压缩包,并且命名为server和executor
mysql -uroot -p mysql> create database azkaban; mysql> use azkaban; Database changed mysql> source /soft/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql; show tables;
4、
以上是关于azkaban工作流调度器的主要内容,如果未能解决你的问题,请参考以下文章