大数据组件之oozie

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据组件之oozie相关的知识,希望对你有一定的参考价值。

参考技术A

官网首页介绍: http://oozie.apache.org

简单项目的话可以用crontab来做控制,但是项目比较复杂的话会发现还是有很多不方便的,比如失败重启和日志查看等问题,所以我们通常在Azkaban和oozie之间做对比,选择适合自己公司或者项目的任务调度工具

Oozie主要有三个层层包裹的主要概念

Oozie的作业有三部分组成,分别是job.properties,workflow.xml,lib文件夹。下面分别介绍

从名称也能看出来,这个文件是用来配置作业(job)中用到的各种参数的,总结如下

注:
1、这个文件如果是在本地通过命令行进行任务提交的话,这个文件在本地就可以了,当然也可以放在hdfs上,与workflow.xml和lib处于同一层级。
2、nameNode,jobTracker和workflow.xml在hdfs中的位置必须设置。

一个简单的job.properties文件如下:

这个文件是定义任务的整体流程的文件,需要注意的有三点:版本信息,EL函数,节点信息。
先上一个例子:

在xmls属性中定义了workflow的版本为0.4,workflow的版本不能高于oozie兼容的最高版本,可以降低。

A. 流程控制节点

案例:

B. 动作节点

Workflow.xml综述
文件需要被放在HDFS上才能被oozie调度,如果在启动需要调动MR任务,jar包同样需要在hdfs上。最终的目录结构如下:

在workflow工作流定义的同级目录下,需要有一个lib目录,在lib目录中存在java节点MapReduce使用的jar包。需要注意的是,oozie并不是使用指定jar包的名称来启动任务的,而是通过制定主类来启动任务的。在lib包中绝对不能存在某个jar包的不同版本,不能够出现多个相同主类。

在搭建好CDH后,可以直接通过添加服务的方式实现oozie的安装,比较方便。当然也可以在服务器上搭建独立的oozie服务,具体可参考 https://oozie.apache.org/docs/5.0.0/AG_Install.html

搭设后进入oozie web控制台,地址为:OozieserverIp:11000/oozie/ (OozieserverIp为oozie所在的服务器的ip地址),界面如下:

1.拷贝官方自带实例模板

2.修改job.properties

3.修改workflow.xml

4.在shell目录下创建mem.sh

注:/usr/bin/date为命令绝对路径,可以通过which date获得

5.上传到hdfs

6.执行:

7.检查结果

以上是关于大数据组件之oozie的主要内容,如果未能解决你的问题,请参考以下文章

大数据基础之Oozie常见问题

大数据Hadoop之——任务调度器Oozie(Oozie环境部署)

大数据数据仓库-基于大数据体系构建数据仓库(Hive,Flume,Kafka,Azkaban,Oozie,SparkSQL)

大数据用户画像之OozieHue集成Spark2 应用调度

大数据繁荣生态圈组件之实时大数据Druid小传

大数据繁荣生态圈组件之实时大数据Druid小传Druid架构与原理