我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件
Posted
技术标签:
【中文标题】我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件【英文标题】:I am completely new to parquet files and python, Can anyone please let me know how to read parquet file with headers in pyspark 【发布时间】:2020-08-12 03:10:18 【问题描述】:我对 parquet 文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的 parquet 文件以及如何指定其他选项,例如我们在 csv 文件中拥有的选项,如下所示:
df = spark.read.load("examples/src/main/resources/people.csv",
format="csv", sep=":", inferSchema="true", header="true")
【问题讨论】:
【参考方案1】:Parquet 文件将有 column names in them
并且我们不需要在读取 parquet 文件时指定诸如 header
..etc 之类的选项。
要读取 parquet 文件:
#read parquet file
df=spark.read.parquet("<parquet_file_path>")
#or spark defaultly reads data in parquet format
df=spark.read.load("<parquet_file_path>")
#see data from the dataframe
df.show()
【讨论】:
以上是关于我对镶木地板文件和 python 完全陌生,谁能告诉我如何在 pyspark 中读取带有标题的镶木地板文件的主要内容,如果未能解决你的问题,请参考以下文章