是否可以用 pyarrow 编写镶木地板统计信息?

Posted

技术标签:

【中文标题】是否可以用 pyarrow 编写镶木地板统计信息?【英文标题】:Is it possible to write parquet statistics with pyarrow? 【发布时间】:2018-09-29 20:21:46 【问题描述】:

这个选项存在于 Spark 中,我看到 pyarrow 的 write_table() 接受 **kwargs,但在跟进 .pyx 之后,我无法将其追踪到诸如 min/max 之类的东西。

是否支持,如果支持,是如何实现的?

【问题讨论】:

【参考方案1】:

pyarrow 默认已写入 Parquet 文件的最小/最大统计信息。在pyarrow 中没有选项,因为底层parquet-cpp 库总是写入它们。在撰写本文时,仅写入了 min 和 max。其他统计信息既不能提供也不能使用parquet-cpp 即时计算。当您需要它们时,您应该在 (Py)Arrow's issue tracker 中打开一个问题,并考虑为此贡献缺失的代码。

【讨论】:

以上是关于是否可以用 pyarrow 编写镶木地板统计信息?的主要内容,如果未能解决你的问题,请参考以下文章

使用 pyarrow 如何附加到镶木地板文件?

如何使用 Pyarrow 更改镶木地板文件中列的名称?

如何在 python 中使用 pyarrow 从 S3 读取分区镶木地板文件

Hive/Bigsql Pandas 将浮点数转换为整数,使用 pyarrow 将空值转换为镶木地板文件

在没有熊猫的情况下从 Python 编写镶木地板文件

将带有 timedeltas 的 pandas 数据帧写入镶木地板