如何在分区文件上创建数据框
Posted
技术标签:
【中文标题】如何在分区文件上创建数据框【英文标题】:How to create Dataframes on partitioned files 【发布时间】:2018-01-31 05:32:06 【问题描述】:我在一个文件夹中有 1000 多个镶木地板文件,这是一个分区文件夹。 现在我们需要使用这些文件对其执行一些转换。 我需要使用这些镶木地板文件创建数据框。有什么建议么?
【问题讨论】:
【参考方案1】:试试下面的代码:
DF = sqlContext.read.parquet(r"<folderpath>/*")
*
表示指定文件夹下的所有文件。
DF
将是一个数据框,其中包含来自<folderpath>
内所有镶木地板文件的数据。然后你可以在DF
上执行你的转换。
【讨论】:
以上是关于如何在分区文件上创建数据框的主要内容,如果未能解决你的问题,请参考以下文章