自 apache arrow 1.0.1 发布以来用于长期存储的羽毛格式

Posted

技术标签:

【中文标题】自 apache arrow 1.0.1 发布以来用于长期存储的羽毛格式【英文标题】:Feather format for long term storage since the release of apache arrow 1.0.1 【发布时间】:2021-01-13 07:10:32 【问题描述】:

由于在Feather Github 中搜索问题以及在*** 中的问题(例如What are the differences between feather and parquet?),我了解到,由于Apache Arrow 版本,不建议将Feather 格式作为长期存储为 0.xx,并且由于持续的新版本而被认为是不稳定的。

我的问题是,从当前的 Apache Arrow 版本 1.0.1 开始,这种情况是否发生了变化? Feather 被认为是稳定的,可以用作长期存储吗?

【问题讨论】:

【参考方案1】:

从 Apache Arrow 1.0.0 开始,Feather 文件(使用 v2 -- 默认 -- 格式版本,而不是 v1“旧版”版本)是稳定的。

【讨论】:

以上是关于自 apache arrow 1.0.1 发布以来用于长期存储的羽毛格式的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Pyspark 中启用 Apache Arrow

Apache Arrow 简介

在pyspark中使用pandas udf/apache Arrow

Q:Apache Arrow阵列构建器UnsafeAppend

Apache Arrow 使用 C++ 在镶木地板中编写嵌套类型

Apache Arrow 内存数据交换格式