关于ETL的几种运行
Posted 曹军
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了关于ETL的几种运行相关的知识,希望对你有一定的参考价值。
一:代码部分
1.新建maven项目
2.添加需要的java代码
3.书写mapper类
4.书写runner类
二:运行方式
1.本地运行
2.集群运行
3.本地提交集群运行
三:本地运行方式
1.解压hadoop到本地
2.修改配置文件HADOOP_HOME
3.解压common的压缩包
4.将压缩包的内容拷贝到bin下
5.前提
在resource中必须存在core和Hbase的site文件
6.上传数据
新建目录/eventLogs/2015/12/20
上传到linux
上传到HDFS
7.上传qqwey.dat到ips文件
新建文件夹
上传
8.启动服务
hdfs
yarn
hbase
zookeeper
9.运行
9.需要修改linux与Windows环境下不兼容的代码
只需要重新新建一个包,将源程序添加进去,并修改。
10.结果
四:集群运行
1.需要将ip的解析文件改成HDFS
2.打包方式一(mvn)
)查找源码位置
)打包(local)
)结果
)打包(dev)
mvn -Pdev clean package
)结果
3.打包方式二(eclipse)
)run as—》mav build...
)结果
)打包二(run configuration)
)结果
4.上传
5.添加jar(mapred在集成hbase时需要的jar包)
6.运行
五:本地提交集群运行
1.修改集群需要的参数configuration
2.
以上是关于关于ETL的几种运行的主要内容,如果未能解决你的问题,请参考以下文章
spring boot spring cloud 打成jar包在Windows或者Linux上运行的几种方式