hadoop文件存储格式
Posted 大数据猿群
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop文件存储格式相关的知识,希望对你有一定的参考价值。
txt
纯文本格式,若干行记录。默认用字符编码存储
SequenceFile
Configuration configuration = new Configuration(); configuration.set("fs.defaultFS","hdfs://s100:8020"); FileSystem fileSystem = FileSystem.get(configuration); Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq"); SequenceFile.Writer writer = SequenceFile.createWriter(fileSystem, configuration, path, IntWritable.class, Text.class); writer.append(new IntWritable(1),new Text("gg1")); writer.append(new IntWritable(1),new Text("gg2")); writer.append(new IntWritable(1),new Text("gg3")); writer.append(new IntWritable(1),new Text("gg4")); writer.close();
Configuration configuration = new Configuration(); configuration.set("fs.defaultFS","hdfs://s100:8020"); FileSystem fileSystem = FileSystem.get(configuration); Path path = new Path("hdfs://s100:8020/user/seqmyfile.seq"); SequenceFile.Reader sr = new SequenceFile.Reader(fileSystem,path,configuration); IntWritable key = new IntWritable(); Text value = new Text(); while (sr.next(key,value)){ System.out.println(key +":"+value ); }
编写读取 seq 文件案例
key-value 格式进行存储,最终形成的是一个二进制文件, 需用hadoop提供的api进行写入存储。
编写 写入 seq文件案例。
以上是关于hadoop文件存储格式的主要内容,如果未能解决你的问题,请参考以下文章
比较Apache Hadoop生态系统中不同的文件格式和存储引擎的性能
Hadoop3 - MapReduce SequenceFile MapFile 格式存储