如何添加Hadoop依赖通过Maven

Posted 2023-05-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何添加Hadoop依赖通过Maven相关的知识，希望对你有一定的参考价值。

参考技术A Hadoop开发中需要用到至少不下10个的依赖包，它们相互间的依赖关系比较复杂，不同版本的依赖关系也有所不同，而间接依赖导致的程序错误并不会在运行之前报错，因此确定适合一个版本的依赖包，会耗费相当多的时间。Maven是一个依赖管理和项目构建的工具，它利用惯例组织Java项目的结构，并允许通过简单的配置定义直接依赖，而直接依赖所需的其他依赖则会通过事先定义好的关系列表自动下载，大大节省了开发者本身的工作量。

使用Maven管理依赖，相比于下载到lib文件夹再导入项目，有以下优势：
节省找寻合适依赖所需的时间
便于依赖升级以适配不同的Hadoop版本
依赖下载到本地库后可重复使用
缩小版本管理的文件体积
Maven在主流的Java IDE上都有插件，Eclipse可通过安装m2eclipse，但这里个人推荐与智能化程度更高、联网更迅速、体验更流畅的IntelliJ IDEA配合，以下就简要介绍IntelliJ IDEA如何使用Maven。（以IntelliJ IDEA 13为例，它自带了Maven的支持，无需安装插件）
New Project -> Maven新建一个Maven项目，在属性栏填写GroupId（项目或组织的唯一标识）和ArtifactId（项目的通用名称）：

Next之后填写项目名和项目位置：

新建项目之后有弹窗提示，选择自动导入：

项目生成后的架构是这样的，我们在src/main/java路径下写项目代码，pom.xml是项目统一的配置文件。

因为我们线上用的是Cloudera的Hadoop版本，所以我们需要在pom.xml的project节点下添加一个CDH5的Maven远程依赖仓库（参考Using the CDH 5 Maven Repository)
开发一个普通的Hadoop项目，我们一般需要hadoop-common、hadoop-core两组依赖；如果需要读取HDFS上的文件内容，则需要hadoop-hdfs和hadoop-client另外两组依赖；如果需要读取HBase的数据，则需要再加入hbase-client。（以上均为artifactId，以CDH5.1.0为例）
IntelliJ IDEA提供了对pom文件非常智能的自动补全和实时查询功能

Maven项目打Jar包，如何添加依赖

　　之前介绍了使用spring-boot-maven-plugin插件打jar包，会把所有的依赖文件都导入，然后变成了一个可执行的jar包。这样的不好的地方就是，我实际上并不需要把依赖的jar包也打入到生成的jar包里面去，仅仅需要把当前项目的代码打包。生成的jar包只要能引用到它所依赖的jar包，并且可以执行就好了。

　　那么一般情况下，打包时如何添加依赖呢？
　　使用maven-dependency-plugin插件
　　子项目中的pom.xml文件中，添加以下maven-dependency-plugin依赖，这个maven-dependency-plugin依赖的作用就是自动拷贝jar包到target目录

　　这是我的Maven子项目打包，指定了将它的依赖的父项目中的jar包拷贝到target下的lib目录

 1 <plugin>
 2     <groupId>org.apache.maven.plugins</groupId>
 3     <artifactId>maven-dependency-plugin</artifactId>
 4     <executions>
 5         <execution>
 6             <id>copy-dependencies</id>
 7             <phase>prepare-package</phase>
 8             <goals>
 9                 <goal>copy-dependencies</goal>
10             </goals>
11             <configuration>
12                 <!-- ${project.build.directory}为Maven内置变量，缺省为target -->
13                 <outputDirectory>${project.build.directory}/lib</outputDirectory>
14                 <overWriteReleases>true</overWriteReleases>
15                 <overWriteSnapshots>true</overWriteSnapshots>
16                 <overWriteIfNewer>true</overWriteIfNewer>
17             </configuration>
18         </execution>
19     </executions>
20 </plugin>

　　关于maven-dependency-plugin：用得最多的几个操作：copy, copy-dependencies和它们对应的unpack, unpack-dependencies
　　描述：copy 和 unpack操作是由要拷某个包，这个包需要具体指定要拷哪个包，与当前工程的依赖没有关系。这两者区别-是否解压
　　　　　copy-dependencies和unpack-dependencies，但是它是用来拷当前工程的依赖包的。这两者区别-是否解压

　　copy操作可以用来将某个（些）maven artifact(s)拷贝到某个目录下。添加phase和goal如下：

 1     <build>
 2         <plugins>
 3             <plugin>
 4                 <groupId>org.apache.maven.plugins</groupId>
 5                 <artifactId>maven-dependency-plugin</artifactId>
 6                 <version>2.8</version>
 7                 <executions>
 8                     <execution>
 9                         <phase>package</phase>
10                         <goals>
11                             <goal>copy</goal>
12                         </goals>
13                     </execution>
14                 </executions>
15             </plugin>
16         </plugins>
17     </build>

　　然后就是配置，copy可以的配置的项比较多，详细的请参考：copy配置。下面是一些常用项说明：

　　 ● artifactItems: 指定要拷贝的jar包
　　● prependGroupId: 用来指示拷出来的library名字需要不需要加上groupId，默认是不加
　　 ● outputDirectory: 用来指定拷出后Libraries的存放地

　　这里除了artifactItems没有默认值，需要指定外，所有其他的选项都可以被忽略：

1     <configuration>
2         <artifactItems>
3             <artifactItem>
4                 <groupId>junit</groupId>
5                 <artifactId>junit</artifactId>
6                 <version>4.11</version>
7             </artifactItem>
8         </artifactItems>
9     </configuration>

　　以上配置会将junit包拷到target/dependency目录下，文件名为：junit-4.11.jar。

　　unpack和copy类似，只不过它会把拷来的包解开。junit拷完以后，放到lib和lib2下的不再是Jar包，还是Jar包里的内容。

　　copy-dependencies 和 unpack-dependencies
　　上面介绍的copy 和 unpack操作是由要拷某个包，这个包需要具体指定要拷哪个包，与当前工程的依赖没有关系。copy-dependencies和它有点类似，但是它是用来拷当前工程的依赖包的，典型的，例如我们有一个web应用，当打成war包的时候，它所有的依赖也需要被打到应用中。

　　copy-dependencies的参数有很多，详细的可以参考：copy-dependencies Doc，但是几乎所有都有默认值。所以一个最简单的定义如下：

 1 <plugin>
 2         <groupId>org.apache.maven.plugins</groupId>
 3         <artifactId>maven-dependency-plugin</artifactId>
 4         <version>2.8</version>
 5         <executions>
 6             <execution>
 7                 <phase>package</phase>
 8                 <goals>
 9                     <goal>copy-dependencies</goal>
10                 </goals>
11             </execution>
12         </executions>
13     </plugin>

这里没有指定任何配置，所有的参数都用默认值，则当前工程的所有依赖（直接、间接的）都会被拷到target/dependency目录下。
也可以使用outputDirectory指定存放在。另外，以下几个参数可以控制哪些依赖将被拷出（或排除）：
excludeArtifactIds
excludeClassifiers
excludeGroupIds
excludeScope
excludeTransitive
excludeTypes
includeArtifactIds
includeClassifiers
includeGroupIds
includeScope
includeTypes

以上是关于如何添加Hadoop依赖通过Maven的主要内容，如果未能解决你的问题，请参考以下文章