如何使用自定义拼花压缩算法？

Posted 2023-04-17

技术标签:

【中文标题】如何使用自定义拼花压缩算法？【英文标题】：How to use custom parquet compression algorithm? 【发布时间】：2018-01-06 11:02:55 【问题描述】：

是否可以在 Spark 中使用自定义压缩算法来读取和写入 Parquet 文件？

理想情况下，配置如下：

sqlContext.setConf("spark.sql.parquet.compression.codec", "myalgo")

【问题讨论】：

【参考方案1】：

不，正如in the documentation（此处指的是版本 2.2.0）所述，唯一可接受的值是

uncompressed, snappy, gzip 和 lzo

snappy 是默认值。

这是由于 Parquet 本身的限制，它仅使用一组受限的压缩算法，如 this enumeration 中所列（适用于版本 1.5.0）。

【讨论】：

还有较新的 Parquet 版本支持 Brotli 和 ZStandard 作为压缩算法。但是这些可以被较新的 Parquet 阅读器阅读（我认为任何典型的 Hadoop 发行版都不支持这一点）

以上是关于如何使用自定义拼花压缩算法？的主要内容，如果未能解决你的问题，请参考以下文章