hive Groupby 输出未包含在groupby的字段

Posted 见贤思小齐,知足常乐呵

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hive Groupby 输出未包含在groupby的字段相关的知识,希望对你有一定的参考价值。

今天帮同事测试,发现代码里有个好用的hive 函数:

collect_set 可以输出未包含在groupby里的字段。条件是,这个字段值对应于主键是唯一的。

select
   a,  collect_set(b)[0],  count(*)          -- 同时想输出每个主键对应的b字段
from
(
   select ‘a‘ a, ‘b‘ b
   from test.dual
)a
group by a;                                   -- 根据a group by

  

以上是关于hive Groupby 输出未包含在groupby的字段的主要内容,如果未能解决你的问题,请参考以下文章

hive.groupby.skewindata为

PySpark Hive 查询未显示输出

HIVE优化场景七--数据倾斜--group by 倾斜

hive中数据倾斜

GroupBy和集合交集

Group by