Spark:读取hdfs gz压缩包

Posted yy

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark:读取hdfs gz压缩包相关的知识,希望对你有一定的参考价值。

spark 1.5.1是支持直接读取gz格式的压缩包的,和普通文件没有什么区别:

使用spark-shell进入spark shell 交互界面:

输入命令:

sc.textFile("\huawei\mr\20161120\880873\*.gz").foreach(println)

回车后是可以看到该目下很多个gz压缩包文件都被打印出来了。

 

 

参考文章:

http://blog.csdn.net/xuyaoqiaoyaoge/article/details/52943606

以上是关于Spark:读取hdfs gz压缩包的主要内容,如果未能解决你的问题,请参考以下文章

Spark 支持 gzip 格式吗?

在 Spark/Scala 中写入 HDFS,读取 zip 文件

火花需要很长时间才能在 HDFS 上读取压缩的 json

用scala在spark中读取压缩文件

如何在spark中解压和读取包含多个压缩文件的文件

使用 spark 读取压缩文件*带有自定义扩展名*