我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件

Posted

技术标签:

【中文标题】我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件【英文标题】:I am completely new to parquet files and python, Can anyone please let me know how to read parquet file with headers in pyspark 【发布时间】:2020-08-12 03:10:18 【问题描述】:

我对 parquet 文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的 parquet 文件以及如何指定其他选项,例如我们在 csv 文件中拥有的选项,如下所示:

df = spark.read.load("examples/src/main/resources/people.csv",
                     format="csv", sep=":", inferSchema="true", header="true")

【问题讨论】:

【参考方案1】:

Parquet 文件将有 column names in them 并且我们不需要在读取 parquet 文件时指定诸如 header..etc 之类的选项。

要读取 parquet 文件:

#read parquet file
df=spark.read.parquet("<parquet_file_path>")

#or spark defaultly reads data in parquet format
df=spark.read.load("<parquet_file_path>")

#see data from the dataframe
df.show()

【讨论】:

以上是关于我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件的主要内容,如果未能解决你的问题,请参考以下文章

从 Python 编写嵌套拼花格式

oauth 谷歌使用 python

oauth 谷歌使用 python

生成镶木地板文件 - R 和 Python 之间的差异

ROS rosmake 错误

流式镶木地板文件python并且仅下采样