hadoop文件存储格式

Posted 大数据猿群

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop文件存储格式相关的知识,希望对你有一定的参考价值。

  1. txt

    1. 纯文本格式,若干行记录。默认用字符编码存储

  2. SequenceFile

    
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://s100:8020");
        FileSystem fileSystem = FileSystem.get(configuration);
        Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq");
        SequenceFile.Writer writer = SequenceFile.createWriter(fileSystem, configuration, path, IntWritable.class, Text.class);
    
    
        writer.append(new IntWritable(1),new Text("gg1"));
        writer.append(new IntWritable(1),new Text("gg2"));
        writer.append(new IntWritable(1),new Text("gg3"));
        writer.append(new IntWritable(1),new Text("gg4"));
        writer.close();    
     Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS","hdfs://s100:8020");
        FileSystem fileSystem = FileSystem.get(configuration);
        Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq");
        SequenceFile.Reader sr = new SequenceFile.Reader(fileSystem,path,configuration);
    
        IntWritable key = new IntWritable();
        Text value = new Text();    while (sr.next(key,value)){
            System.out.println(key +":"+value );
        }    
    1. 编写读取 seq 文件案例

    2. key-value 格式进行存储,最终形成的是一个二进制文件, 需用hadoop提供的api进行写入存储。

    3. 编写 写入 seq文件案例。


以上是关于hadoop文件存储格式的主要内容,如果未能解决你的问题,请参考以下文章

hadoop文件存储格式

比较Apache Hadoop生态系统中不同的文件格式和存储引擎的性能

Hadoop文件存储的葵花宝典

Hadoop3 - MapReduce SequenceFile MapFile 格式存储

Hadoop3 - MapReduce SequenceFile MapFile 格式存储

如何让Hadoop读取以gz结尾的文本格式的文件