Hadoop之工作流调度

Posted _TIM_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop之工作流调度相关的知识,希望对你有一定的参考价值。

工作流调度

将综合案例123中实现的模块串起来,定时的执行

一、flume数据的采集: flume一直在采集,不需要定时的执行
二、数据的清洗需要定时的执行
三、表模型三个mr的程序

  • 第一个:mr清洗数据
  • 第二个:pageView表模型
  • 第三个:visit表模型

四、Hive建表加载数据: 每天产生的数据,都要定时的加载到Hive的对应的分区表里面去
五、数据的分析的hql语句: 自己开发的hql语句写到脚本里面定时的执行
六、数据的导出: sqoop数据的导出也需要定时执行

以上是关于Hadoop之工作流调度的主要内容,如果未能解决你的问题,请参考以下文章

大数据Hadoop之——任务调度器Oozie(Oozie环境部署)

hadoop之MapReduce---Yarn资源调度器

Hadoop之Yarn篇

大数据技术之Hadoop(Yarn)资源调度器案例实操

大数据技术之Hadoop(Yarn)资源调度器案例实操

一文带你了解大数据技术之Hadoop(Yarn)