我是不是需要将文件放入熊猫数据框中以放入镶木地板格式?

Posted

技术标签:

【中文标题】我是不是需要将文件放入熊猫数据框中以放入镶木地板格式?【英文标题】:Do I need to put a file in a panda's dataframe to put in parquet format?我是否需要将文件放入熊猫数据框中以放入镶木地板格式? 【发布时间】:2019-07-08 13:50:18 【问题描述】:

我是使用 spark 的新手,似乎我们必须以 pandas 格式放置文件才能将其放入 parquet 格式。是对的吗?有没有办法可以直接把它们做成镶木地板格式。

【问题讨论】:

【参考方案1】:

不,你没有。 Spark 数据帧与 pandas 数据帧不同。也就是说,this 可能就是您要找的。官方 Sparkdocumentation 中也有大量关于此事的信息。

【讨论】:

以上是关于我是不是需要将文件放入熊猫数据框中以放入镶木地板格式?的主要内容,如果未能解决你的问题,请参考以下文章

在没有熊猫的情况下从 Python 编写镶木地板文件

如何使用熊猫使用 zstandard 压缩镶木地板文件

如何使用 pyarrow 从 S3 读取镶木地板文件列表作为熊猫数据框?

awswrangler 将镶木地板数据帧写入单个文件

熊猫:从镶木地板文件中读取前 n 行?

如何将镶木地板文件的 int64 数据类型列转换为 SparkSQL 数据框中的时间戳?