保存分区 Parquet
Posted
技术标签:
【中文标题】保存分区 Parquet【英文标题】:Saving partitioned Parquet 【发布时间】:2016-10-31 11:09:37 【问题描述】:我想将 df 保存为分区镶木地板,因为逐条插入记录需要时间。任何人都可以帮助我如何保存它并指向蜂巢表。
【问题讨论】:
实际上我一直在增量获取数据,我正在使用动态分区,而不是插入我想要直接保存的数据,作为由一列分区的镶木地板。 【参考方案1】:df.write.parquet("/parquet/file/path")
然后你可以创建一个Hive external table
指向 parquet 文件位置。
【讨论】:
实际上它一直在增量获取数据,我使用动态分区,而不是插入我想要直接保存的数据,作为由一列分区的镶木地板。 @HEMANTHKUMAR:你说的由一列分隔的镶木地板是什么意思?你的意思是 Hive 表分区? 是的,我已经对 hive 表进行了分区 目前我正在将记录记录插入存储为镶木地板的配置单元中,但我想将 df 直接保存为分区镶木地板,而不是逐条插入记录。 @HEMANTHKUMAR:上面的代码和你期望的一样。它不会在 Hive 中插入记录。它将DF存储为镶木地板文件(分区)以上是关于保存分区 Parquet的主要内容,如果未能解决你的问题,请参考以下文章