(PY)Spark:如何读取扩展名为“.gz”的“.txt”文件
Posted
技术标签:
【中文标题】(PY)Spark:如何读取扩展名为“.gz”的“.txt”文件【英文标题】:(PY)Spark: How to read a ".txt" file with extension name ".gz" 【发布时间】:2019-06-24 10:40:04 【问题描述】:我需要在 spark 中加载一个纯 txt RDD。但是由于某些原因,要加载的文件的文件名必须命名为“xxx.gz”。默认情况下,此文件在使用 sc.textFile 时被识别为 gz 文件。如何告诉 spark 将文件识别为纯 txt 文件?
【问题讨论】:
这不是文本文件。gz
是 GZip packages 的扩展名。该 GZip 包可能包含一个或多个文本文件
Read from a gzip file in python的可能重复
这是一个spark问题,标签里有提到。
How to read gz compressed file by pyspark的可能重复
【参考方案1】:
您可以使用gzip。
gzip.open(filename, mode='rb', compresslevel=9, encoding=None, errors=None, newline=None)
【讨论】:
以上是关于(PY)Spark:如何读取扩展名为“.gz”的“.txt”文件的主要内容,如果未能解决你的问题,请参考以下文章