关于ETL的几种运行

Posted 曹军

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于ETL的几种运行相关的知识,希望对你有一定的参考价值。

一:代码部分

1.新建maven项目

2.添加需要的java代码  

3.书写mapper类

4.书写runner类

 

二:运行方式

1.本地运行

2.集群运行

3.本地提交集群运行

 

三:本地运行方式

1.解压hadoop到本地

  

 

2.修改配置文件HADOOP_HOME

  

 

3.解压common的压缩包

  

 

 4.将压缩包的内容拷贝到bin下

  

 

5.前提

  在resource中必须存在core和Hbase的site文件

  

 

6.上传数据

  新建目录/eventLogs/2015/12/20

  上传到linux

  

  上传到HDFS

  

7.上传qqwey.dat到ips文件

   新建文件夹

  上传

  

8.启动服务

  hdfs

  yarn

  hbase

  zookeeper

 

9.运行

  

 

9.需要修改linux与Windows环境下不兼容的代码

  只需要重新新建一个包,将源程序添加进去,并修改。

 

10.结果

  

 

四:集群运行

1.需要将ip的解析文件改成HDFS

  

 

2.打包方式一(mvn)

  )查找源码位置

  

  )打包(local)

  

  )结果

  

  

  )打包(dev)

  mvn -Pdev clean package

  )结果

  

  

 

3.打包方式二(eclipse)

  )run as—》mav build...

  

  )结果

  

  

  )打包二(run configuration)

   

  )结果

  

 

4.上传

  

 

5.添加jar(mapred在集成hbase时需要的jar包)

  

 

6.运行

  

 

五:本地提交集群运行

1.修改集群需要的参数configuration

  

 

2.

 

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

 

以上是关于关于ETL的几种运行的主要内容,如果未能解决你的问题,请参考以下文章

总结运行SSIS包的几种方式

并发1关于线程的几种状态&关于yield的理解

spring boot spring cloud 打成jar包在Windows或者Linux上运行的几种方式

spring boot spring cloud 打成jar包在Windows或者Linux上运行的几种方式

Docker容器进入退出的几种方式

数据准备基本流程 数据规范化的几种方法 利用SciKit库进行数据变换