是否可以用 pyarrow 编写镶木地板统计信息?
Posted
技术标签:
【中文标题】是否可以用 pyarrow 编写镶木地板统计信息?【英文标题】:Is it possible to write parquet statistics with pyarrow? 【发布时间】:2018-09-29 20:21:46 【问题描述】:这个选项存在于 Spark 中,我看到 pyarrow 的 write_table()
接受 **kwargs,但在跟进 .pyx
之后,我无法将其追踪到诸如 min/max 之类的东西。
是否支持,如果支持,是如何实现的?
【问题讨论】:
【参考方案1】:pyarrow
默认已写入 Parquet 文件的最小/最大统计信息。在pyarrow
中没有选项,因为底层parquet-cpp
库总是写入它们。在撰写本文时,仅写入了 min 和 max。其他统计信息既不能提供也不能使用parquet-cpp
即时计算。当您需要它们时,您应该在 (Py)Arrow's issue tracker 中打开一个问题,并考虑为此贡献缺失的代码。
【讨论】:
以上是关于是否可以用 pyarrow 编写镶木地板统计信息?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 python 中使用 pyarrow 从 S3 读取分区镶木地板文件