HiveHive 一些面试题
Posted 九师兄
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HiveHive 一些面试题相关的知识,希望对你有一定的参考价值。
1.概述
Hive 表关联查询,如何解决数据倾斜的问题?
1)倾斜原因: map 输出数据按 key Hash 的分配到 reduce 中,由于 key 分
布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的
数据量差异过大。
( 1) key 分布不均匀;
( 2)业务数据本身的特性;
( 3)建表时考虑不周;
( 4)某些 SQL 语句本身就有数据倾斜;
如何避免:对于 key 为空产生的数据倾斜,可以对其赋予一个随机值。
2)解决方案
( 1)参数调节:
hive.map.aggr = true
hive.groupby.skewindata=
以上是关于HiveHive 一些面试题的主要内容,如果未能解决你的问题,请参考以下文章