Hadoop开发重点HDFS 的 API 操作

Posted 2021-09-22 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop开发重点HDFS 的 API 操作相关的知识，希望对你有一定的参考价值。

HDFS 的 API 操作

1. 客户端环境准备
2. HDFS 的 API 案例实操
3. 客户端代码常用套路

1. 客户端环境准备

1）找到资料包路径下的 Windows 依赖文件夹，拷贝 hadoop-3.1.0 到非中文路径（比如 d:\\）。

2）配置 HADOOP_HOME 环境变量

3）配置 Path 环境变量。

注意：如果环境变量不起作用，可以重启电脑试试。

验证 Hadoop 环境变量是否正常。双击 winutils.exe，如果报如下错误。说明缺少微软运行库（正版系统往往有这个问题）。再资料包里面有对应的微软运行库安装包双击安装即可。

4）在 IDEA 中创建一个 Maven 工程 HdfsClientDemo，并导入相应的依赖坐标+日志添加：

<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.30</version>
        </dependency>
    </dependencies>

在项目的 src/main/resources 目录下，新建一个文件，命名为“log4j.properties”，在文件中填入:

log4j.rootLogger=INFO, stdout 
log4j.appender.stdout=org.apache.log4j.ConsoleAppender 
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n 
log4j.appender.logfile=org.apache.log4j.FileAppender 
log4j.appender.logfile.File=target/spring.log 
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout 
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

注意：在创建Maven项目时，一定要注意设置运行时，Maven目录及setting.xml及运行的Java环境：

5）创建包名：com.zs.hdfs

6）创建 HdfsClient 类

package com.zs.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;

/**
 * 客户端代码常用套路
 * 1、获取一个客户端对象
 * 2、执行相关的操作命令
 * 3、关闭资源
 */
public class HdfsClient {

    // ctrl+alt+f 声明全局变量
    private FileSystem fs;

    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        // 连接的集群nn地址
        URI uri = new URI("hdfs://hadoop102:8020");
        // 创建一个配置文件
        Configuration configuration = new Configuration();

        // 用户
        String user = "zs";

        // 1.获取客户端对象，ctrl + p 显示参数,ctrl + alt + l：全部格式化
        fs = FileSystem.get(uri, configuration, user);
    }

    @After
    public void close() throws IOException {
        // 3.关闭资源
        fs.close();
    }
}

7）执行程序

客户端去操作 HDFS 时，是有一个用户身份的。

默认情况下，HDFS 客户端 API 会从采用 Windows 默认用户访问 HDFS，会报权限异常错误。所以在访问 HDFS 时，一定要配置用户。

org.apache.hadoop.security.AccessControlException: Permission denied: 
user=56576, access=WRITE, 
inode="/xiyou/huaguoshan":atguigu:supergroup:drwxr-xr-x

// 用户
String user = "zs";

// 1.获取客户端对象，ctrl + p 显示参数,ctrl + alt + l：全部格式化
fs = FileSystem.get(uri, configuration, user);

2. HDFS 的 API 案例实操

2.1 HDFS 文件上传（测试参数优先级）

1）编写源代码

@Test
public void testCopyFromLocalFile() throwsIOException, InterruptedException, URISyntaxException {

	 // 1 获取文件系统
	 Configuration configuration = newConfiguration();
	 configuration.set("dfs.replication", "2");  // 优先级最高
	 FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), 
	configuration, "zs");
	
	 // 2 上传文件
	 fs.copyFromLocalFile(newPath("d:/sunwukong.txt"), new Path("/xiyou/huaguoshan"));
	
	 // 3 关闭资源
	 fs.close();
｝

2）将 hdfs-site.xml 拷贝到项目的 resources 资源目录下

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
</configuration>

设置文件的集群备份数量。

可以直接新建 hdfs-site.xml 文件！

3）参数优先级

参数优先级排序：

（1）客户端代码中设置的值 >（2）ClassPath 下的用户自定义配置文件 >（3）然后是服务器的自定义配置（xxx-site.xml）>（4）服务器的默认配置（xxx-default.xml）

2.2 HDFS 文件下载

@Test
public void testCopyToLocalFile() throws IOException, InterruptedException, URISyntaxException{
	 // 1 获取文件系统
	 Configuration configuration = new Configuration(); FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu");
 
	 // 2 执行下载操作
	 // boolean delSrc 指是否将原文件删除
	 // Path src 指要下载的文件路径
	 // Path dst 指将文件下载到的路径
	 // boolean useRawLocalFileSystem 是否开启文件校验
 	fs.copyToLocalFile(false, new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("d:/sunwukong2.txt"), true);
 
	 // 3 关闭资源
	 fs.close();
}

注意：如果执行上面代码，下载不了文件，有可能是你电脑的微软支持的运行库少，需要安装一下微软运行库。

2.3 HDFS 文件更名和移动

@Test
public void testRename() throws IOException, InterruptedException, URISyntaxException{
	// 1 获取文件系统
	Configuration configuration = new Configuration();FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "atguigu"); 
	
	// 2 修改文件名称
	fs.rename(new Path("/xiyou/huaguoshan/sunwukong.txt"), new Path("/xiyou/huaguoshan/meihouwang.txt"));
	
	// 3 关闭资源
	fs.close();
}

2.4 HDFS 删除文件和目录

@Test
public void testDelete() throws IOException, InterruptedException, URISyntaxException{
	// 1 获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:8020"), configuration, "zs");
	
	// 2 执行删除
	fs.delete(new Path("/xiyou"), true);
	
	// 3 关闭资源
	fs.close();
}

2.5 HDFS 文件详情查看

查看文件名称、权限、长度、块信息

// 获取文件详细信息
@Test
public void fileDetail() throws IOException {

    // 获取所有文件的信息
    RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

    // 遍历文件
    while (listFiles.hasNext()) {
        LocatedFileStatus fileStatus = listFiles.next();

        System.out.println("=========" + fileStatus.getPath() + "============");
        // 获取权限
        System.out.println(fileStatus.getPermission());
        // 获取所有者
        System.out.println(fileStatus.getOwner());
        System.out.println(fileStatus.getGroup());
        System.out.println(fileStatus.getLen());
        System.out.println(fileStatus.getModificationTime());
        System.out.println(fileStatus.getReplication());
        System.out.println(fileStatus.getBlockSize());
        System.out.println(fileStatus.getPath().getName());
        // 获取块信息
        BlockLocation[] blockLocations = fileStatus.getBlockLocations();
        System.out.println(Arrays.toString(blockLocations));
    }
}

2.6 HDFS 文件和文件夹判断

//判断是文件还是文件夹
@Test
public void testFile() throws IOException {

    FileStatus[] listStatus = fs.listStatus(new Path("/"));

    for (FileStatus status : listStatus) {

        if (status.isFile()) {
            System.out.println("文件：" + status.getPath().getName());
        } else {
            System.out.println("目录：" + status.getPath().getName());
        }
    }
}

3. 客户端代码常用套路

1、获取一个客户端对象
2、执行相关的操作命令
3、关闭资源

加油!

感谢!

努力!

以上是关于Hadoop开发重点HDFS 的 API 操作的主要内容，如果未能解决你的问题，请参考以下文章

大数据技术之Hadoop（HDFS）概述Shell操作API操作读写流程工作机制

大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和Seconda

Hadoop-HDFS

Hadoop开发重点HDFS 的 Shell 操作

HDFS的Shell操作（开发重点）