(PY)Spark:如何读取扩展名为“.gz”的“.txt”文件

Posted

技术标签:

【中文标题】(PY)Spark:如何读取扩展名为“.gz”的“.txt”文件【英文标题】:(PY)Spark: How to read a ".txt" file with extension name ".gz" 【发布时间】:2019-06-24 10:40:04 【问题描述】:

我需要在 spark 中加载一个纯 txt RDD。但是由于某些原因,要加载的文件的文件名必须命名为“xxx.gz”。默认情况下,此文件在使用 sc.textFile 时被识别为 gz 文件。如何告诉 spark 将文件识别为纯 txt 文件?

【问题讨论】:

这不是文本文件。 gz 是 GZip packages 的扩展名。该 GZip 包可能包含一个或多个文本文件 Read from a gzip file in python的可能重复 这是一个spark问题,标签里有提到。 How to read gz compressed file by pyspark的可能重复 【参考方案1】:

您可以使用gzip。

gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, newline=None)

【讨论】:

以上是关于(PY)Spark:如何读取扩展名为“.gz”的“.txt”文件的主要内容,如果未能解决你的问题,请参考以下文章

使用 spark 读取压缩文件*带有自定义扩展名*

Spark:如何使用子集日期读取多个 s3 文件

如何在spark中解压和读取包含多个压缩文件的文件

Spark:读取hdfs gz压缩包

在 Spark 中读取大的 gz 文件

Python 无法完全读取“warc.gz”文件