hudi使用cow生成parquet格式用hive查询的问题

Posted 江南独孤客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hudi使用cow生成parquet格式用hive查询的问题相关的知识,希望对你有一定的参考价值。

现象:公司使用flink cdc的时候,往hudi同步的数据是13140条数据,模式用的是cow,生成的parquet格式文件的时候,每upstert一次,用hive使用count查询的时候一下子是之前数据的十倍,131400条了,用presto查询不会出现这种情况。

解决方案:

在使用hive做聚合查询的时候,前面加上以下参数

set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat;

没有加参数之前的查询结果:

select count(1) from ods_sony_hudi_ty_user_vip;

hudi使用cow生成parquet格式用hive查询的问题_apache

set hive.input.format= org.apache.hadoop.hive.ql.io.HiveInputFormat;

select count(1) from ods_sony_hudi_ty_user_vip;

hudi使用cow生成parquet格式用hive查询的问题_数据_02

以上是关于hudi使用cow生成parquet格式用hive查询的问题的主要内容,如果未能解决你的问题,请参考以下文章

使用 hive 生成​​ Parquet 文件

数据湖:Hudi与Hive集成

用 Apache Hudi 编写的 Parquet 文件名的每个部分代表啥?

hive存储parquet表

Apache Hudi 数据湖概述

Apache Hudi 数据湖概述