保存分区 Parquet

Posted

技术标签:

【中文标题】保存分区 Parquet【英文标题】:Saving partitioned Parquet 【发布时间】:2016-10-31 11:09:37 【问题描述】:

我想将 df 保存为分区镶木地板,因为逐条插入记录需要时间。任何人都可以帮助我如何保存它并指向蜂巢表。

【问题讨论】:

实际上我一直在增量获取数据,我正在使用动态分区,而不是插入我想要直接保存的数据,作为由一列分区的镶木地板。 【参考方案1】:
df.write.parquet("/parquet/file/path")

然后你可以创建一个Hive external table 指向 parquet 文件位置。

【讨论】:

实际上它一直在增量获取数据,我使用动态分区,而不是插入我想要直接保存的数据,作为由一列分区的镶木地板。 @HEMANTHKUMAR:你说的由一列分隔的镶木地板是什么意思?你的意思是 Hive 表分区? 是的,我已经对 hive 表进行了分区 目前我正在将记录记录插入存储为镶木地板的配置单元中,但我想将 df 直接保存为分区镶木地板,而不是逐条插入记录。 @HEMANTHKUMAR:上面的代码和你期望的一样。它不会在 Hive 中插入记录。它将DF存储为镶木地板文件(分区)

以上是关于保存分区 Parquet的主要内容,如果未能解决你的问题,请参考以下文章

Spark:保存按“虚拟”列分区的 DataFrame

在 AzureML 上保存分区拼花

Linux 使用硬盘

mysql表分区实验总结

将 PubSub 流保存到 GCS 中的分区拼花文件

fdisk新建磁盘分区