保存分区 Parquet

Posted 2023-03-23

技术标签:

【中文标题】保存分区 Parquet【英文标题】：Saving partitioned Parquet 【发布时间】：2016-10-31 11:09:37 【问题描述】：

我想将 df 保存为分区镶木地板，因为逐条插入记录需要时间。任何人都可以帮助我如何保存它并指向蜂巢表。

【问题讨论】：

实际上我一直在增量获取数据，我正在使用动态分区，而不是插入我想要直接保存的数据，作为由一列分区的镶木地板。 【参考方案1】：

df.write.parquet("/parquet/file/path")

然后你可以创建一个Hive external table 指向 parquet 文件位置。

【讨论】：

实际上它一直在增量获取数据，我使用动态分区，而不是插入我想要直接保存的数据，作为由一列分区的镶木地板。 @HEMANTHKUMAR：你说的由一列分隔的镶木地板是什么意思？你的意思是 Hive 表分区？是的，我已经对 hive 表进行了分区目前我正在将记录记录插入存储为镶木地板的配置单元中，但我想将 df 直接保存为分区镶木地板，而不是逐条插入记录。 @HEMANTHKUMAR：上面的代码和你期望的一样。它不会在 Hive 中插入记录。它将DF存储为镶木地板文件（分区）

以上是关于保存分区 Parquet的主要内容，如果未能解决你的问题，请参考以下文章

Spark：保存按“虚拟”列分区的 DataFrame

在 AzureML 上保存分区拼花

Linux 使用硬盘

mysql表分区实验总结

将 PubSub 流保存到 GCS 中的分区拼花文件

fdisk新建磁盘分区