湖仓一体电商项目(二十四):合并Iceberg小文件

Posted Lansonli

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了湖仓一体电商项目(二十四):合并Iceberg小文件相关的知识,希望对你有一定的参考价值。

文章目录

合并Iceberg小文件


合并Iceberg小文件

Iceberg表每次commit都会生成一个parquet数据文件,有可能一张Iceberg表对应的数据文件非常多,那么我们通过Java Api 方式对Iceberg表可以进行数据文件合并,数据文件合并之后,会生成新的Snapshot且原有Snap快照数据并不会被删除,如果要删除对应的数据文件需要通过“Expire Snapshots来实现”。

我们可以通过Java Api 删除历史快照Snap-*.avro,可以通过指定时间戳,当前时间戳之前的所有快照都会被删除,如果指定时间比最后一个快照时间还大,会保留最新快照数据。

在删除快照时,

以上是关于湖仓一体电商项目(二十四):合并Iceberg小文件的主要内容,如果未能解决你的问题,请参考以下文章

湖仓一体电商项目:业务实现之编写写入ODS层业务代码

湖仓一体电商项目(十八):业务实现之编写写入DWD层业务代码

湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码

湖仓一体电商项目(十九):业务实现之编写写入DWS层业务代码

湖仓一体电商项目:编写写入DWS层业务代码

湖仓一体电商项目(十四):实时任务执行流程