大数据讲课笔记4.4 使用Java API操作HDFS

Posted howard2005

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据讲课笔记4.4 使用Java API操作HDFS相关的知识,希望对你有一定的参考价值。

文章目录

零、学习目标

  1. 了解HDFS Java API
  2. 掌握使用Java API操作HDFS

一、导入新课

  • 上一节对HDFS的Shell操作进行了详细的讲解,而HDFS Shell本质上就是对Java API的应用。本节课将针对HDFS Java API操作进行详细讲解。

二、新课讲解

  • 由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。HDFS Shell本质上就是对Java API的应用,通过编程的形式操作HDFS,其核心是使用HDFS提供的Java API构造一个访问客户端对象,然后通过客户端对象对HDFS上的文件进行操作(增、删、改、查)。

(一)了解HDFS Java API

1、HDFS常见类与接口

  • Hadoop整合了众多文件系统,HDFS只是这个文件系统的一个实例。
类或接口功能描述
org.apache.hadoop.fs.FileSystem一个通用文件系统的抽象基类,可被分布式文件系统继承。
org.apache.hadoop.fs.FileStatus文件状态接口,用于向客户端展示系统中文件和目录的元数据。具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体的实例对象。
org.apache.hadoop.fs.FileDataInputStream文件输入流,用于读取Hadoop文件。
org.apache.hadoop.fs.FileDataOutputStream文件输出流,用于写Hadoop文件。
org.apache.hadoop.fs.Configuration访问配置项,所有配置项的值,如果在core-site.xml中有对应的配置,则以core-site.xml为准。
org.apache.hadoop.fs.Path路径,用于表示Hadoop文件系统中的一个文件或一个目录的路径。
org.apache.hadoop.fs.PathFilter路径过滤器接口,通过实现方法PathFilter.accept(Path path)来判断是否接收路径path表示的文件或目录。

2、FileSystem的常用方法

  • FileSystem对象的一些方法可以对文件进行操作
方法名功能描述
copyFromLocalFile(Path src, Path dst)从本地磁盘复制文件到HDFS
copyToLocalFile(Path src, Path dst)从HDFS复制文件到本地磁盘
mkdirs(Path f)建立子目录
rename(Path src, Path dst)重命名文件或文件夹
delete(Path f)删除指定文件

(二)编写Java程序访问HDFS

1、创建Maven项目

  • 创建Maven项目 - HDFSDemo

2、修改pom.xml文件,添加hadoop依赖

<dependencies>                                
    <dependency>                              
        <groupId>org.apache.hadoop</groupId>  
        <artifactId>hadoop-client</artifactId>
        <version>2.10.0</version>             
    </dependency>                             
    <dependency>                              
        <groupId>junit</groupId>              
        <artifactId>junit</artifactId>        
        <version>4.12</version>               
    </dependency>                             
</dependencies>                               

3、在resources目录里创建log4j.properties文件

log4j.rootLogger=stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

4、启动虚拟机的HDFS服务

说明:虚拟机的地址是192.168.225.100,主机名是tiger。

[root@tiger ~]# start-dfs.sh

5、在HDFS上创建文件

package net.hw.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import java.net.URI;

/**
 * 功能:在HDFS上创建文件
 * 作者:华卫
 * 日期:2020年1月7日
 */
public class CreateFileOnHDFS 
    public static void main(String[] args) throws Exception 
        // 创建配置对象
        Configuration conf = new Configuration();
        // 定义uri字符串
        String uri = "hdfs://tiger:9000";
        // 创建文件系统对象
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 创建路径对象
        Path path = new Path(uri + "/park01/success.txt");
        // 创建文件
        boolean result = fs.createNewFile(path);
        // 判断是否创建成功
        if (result) 
            System.out.println("文件[" + path + "]创建成功!");
         else 
            System.out.println("文件[" + path + "]创建失败!");
        
    

运行程序,结果如下:

利用HDFS Explorer软件来查看:

再次运行程序,由于success.txt已经存在,此时会提示用户创建失败:

利用fsck命令查看这个文件:

利用Web界面查看这个文件:

6、写入HDFS文件

创建WriteFileOnHDFS类:

(1)将数据直接写入HDFS文件

@Test                                                         
public void write1() throws Exception                        
    // 创建配置对象                                                 
    Configuration conf = new Configuration();                 
    // 定义uri字符串                                               
    String uri = "hdfs://tiger:9000";                         
    // 创建文件系统对象                                               
    FileSystem fs = FileSystem.get(new URI(uri), conf);       
    // 创建路径对象(文件或目录)                                          
    Path path = new Path(uri + "/park01/hello.txt");          
    // 创建文件输出流                                                
    FSDataOutputStream out = fs.create(path);                 
    // 写数据                                                    
    out.write("Hello Hadoop".getBytes());                     
    // 提示用户写文件成功                                              
    System.out.println("文件[" + path + "]写入成功!");              
    // 刷新输出流                                                  
    out.flush();                                              
    // 关闭输出流                                                  
    out.flush();                                              
    // 关闭文件                                                   
    fs.close();                                               
                                                             

运行程序,结果如如下:

利用HDFS Explorer查看hello.txt:

将/park01目录下的文件全部删除:

(2)将本地文件写入HDFS文件

在项目根目录创建一个文本文件test1.txt:

@Test                                                                 
public void write2() throws Exception                                
    Configuration conf = new Configuration();                         
    String uri = "hdfs://tiger:9000";                                 
    FileSystem fs = FileSystem.get(new URI(uri), conf);               
    Path path = new Path(uri + "/park01/test1.txt");                  
    FSDataOutputStream out = fs.create(path);                         
    FileInputStream in = new FileInputStream("test1.txt");            
    BufferedReader br = new BufferedReader(new InputStreamReader(in));
    String nextLine = "";                                             
    while ((nextLine = br.readLine()) != null)                       
        System.out.println(nextLine);                                 
        out.write(nextLine.getBytes());                               
                                                                     
    System.out.println("文件[test1.txt]写入文件[" + path + "]!");           
    in.close();                                                       
    out.close();                                                      
    fs.close();                                                       
                                                                     

运行程序,结果如下:

其实这个方法的功能就是将本地文件复制(上传)到HDFS,有没有更简单的处理方法呢?有的,通过使用一个工具类IOUtils来完成文件的相关操作。

先删除/park01/test1.txt文件,再运行程序,结果如下:

查看/park01/test1.txt内容:

7、读取HDFS文件

创建ReadFileOnHDFS类:

(1)读取HDFS文件直接在控制台显示

准备读取hdfs://tiger:9000/park01/test1.txt文件:

@Test                                                                 
public void read1() throws Exception                                 
    // 创建配置对象                                                         
    Configuration conf = new Configuration();                         
    // 定义uri字符串                                                       
    String uri = "hdfs://tiger:9000";                                 
    // 创建文件系统对象                                                       
    FileSystem fs = FileSystem.get(new URI(uri), conf);               
    // 创建路径对象(文件或目录)                                                  
    Path path = new Path(uri + "/park01/test1.txt");                  
    // 创建文件输入流                                                        
    FSDataInputStream in = fs.open(path);                             
    // 读取文件在控制台显示                                                     
    BufferedReader br = new BufferedReader(new InputStreamReader(in));
    String nextLine = "";                                             
    while ((nextLine = br.readLine()) != null)                       
        System.out.println(nextLine);                                 
                                                                     
    // 关闭文件系统                                                         
    fs.close();                                                       
                                                                     

运行程序,结果如下:

其实,我们可以使用IOUtils类来简化代码:

运行程序,结果如下:

(2)读取HDFS文件,保存为本地文件

任务:将/park01/test1.txt下载到项目下/download目录里。

@Test                                                                               
public void read2() throws Exception                                               
    Configuration conf = new Configuration();                                       
    String uri = "hdfs://tiger:9000";                                               
    FileSystem fs = FileSystem.get(new URI(uri), conf);                             
    Path path = new Path(uri + "/park01/test1.txt");                                
    FSDataInputStream in = fs.open(path);                                           
    FileOutputStream out = new FileOutputStream("download/test1.txt");              
    IOUtils.copyBytes(in, out, conf);                                               
    System.out.println("文件[" + path + "]下载到本地文件[download/test1.txt]!" );            
    fs.close();                                                                     
                                                                                   

运行程序,结果如下:

报错是因为我们并没有在项目根目录下创建download目录。现在创建download目录:

再运行程序,看看结果:

8、重命名目录或文件

创建RenameDirOrFile类:

删除/park01之外的其它目录:

(1)重命名目录

@Test                                                                                         
public void renameDir() throws Exception                                                     
    Configuration conf = new Configuration();                                                 
    String uri = "hdfs://tiger:9000";                                                         
    FileSystem fs = FileSystem.get(new URI(uri), conf);                                       
    Path path1 = new Path("/park01");                                                         
    Path path2 = new Path("/park02");                                                         
    fs.rename(path1, path2);                                                                  
    System.out.println("目录[" + path1.getName() + "]重命名为目录[" + path2.getName() + "]!");        
                                                                                             

运行程序,结果如下:

利用HDFS Explorer来查看:

(2)重命名文件


任务:将/park02/test1.txt重命名为/park02/test2.txt。

Configuration conf = new Configuration();                       
String uri = "hdfs://tiger:9000";                               
FileSystem fs = FileSystem.get(new URI(uri), conf);             
Path path1 = new Path("/park02/test1.txt");                     
Path path2 = new Path("/park02/test2.txt");                     
fs.rename(path1, path2);                                        
System.out.println("文件[" + path1 + "]重命名为文件[" + path2 + "]!");  

运行程序,结果如下:

利用HDFS Explorer来查看:

9、显示文件列表

先上传一些文件到/park02目录:

创建ListHDFSFiles类:

(1)显示根目录下所有文件的全部信息

@Test                                                                                            
public void list1() throws Exception                                                            
    Configuration conf = new Configuration();                                                    
    String uri = "hdfs://tiger:9000";                                                           
    FileSystem fs = FileSystem.get(new URI(uri), conf);                                          
    RemoteIterator<LocatedFileStatus> ri = fs.listFiles(new Path("/"), true);                    
    while (ri.hasNext())                                                                        
        System.out.println(ri.next());                                                           
                                                                                                
                                                                                                

运行程序,结果如下:

LocatedFileStatuspath=hdfs://tiger:9000/park02/CreateFileOnHDFS.java;
isDirectory=false; length=1024; replication=1; blocksize=134217728;
modification_time=1578381985792; access_time=1578381985766;
owner=root; group=supergroup; permission=rwxr-xr-x; isSymlink=false

上述文件状态对象封装的有关信息,可以通过相应的方法来获取,比如getPath()方法就可以获取路径信息。

(2)只显示文件的路径信息

@Test                                                                                           
public void list2() throws Exception                                                           
    Configuration conf = new Configuration();                                                   
    String uri = "hdfs://tiger:9000";                                                           
    FileSystem fs = FileSystem.get(new URI(uri), conf);                                         
    RemoteIterator<LocatedFileStatus> ri = fs.listFiles(new Path("/"), true);                   
    while (ri.hasNext())                                                                       
        System.out.println(ri.next().getPath());                                                
                                                                                               
                                                                                               

运行程序,结果如下:

以上是关于大数据讲课笔记4.4 使用Java API操作HDFS的主要内容,如果未能解决你的问题,请参考以下文章

大数据讲课笔记6.6 ZooKeeper的Java API操作

大数据讲课笔记6.5 ZooKeeper的Shell操作

2022年大数据讲课笔记

大数据讲课笔记1.3 Linux目录操作

大数据讲课笔记6.5 ZooKeeper的Shell操作

2022年大数据基础讲课笔记