HiveHive 一些面试题

Posted 九师兄

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了HiveHive 一些面试题相关的知识,希望对你有一定的参考价值。

1.概述

Hive 表关联查询,如何解决数据倾斜的问题?

1)倾斜原因: map 输出数据按 key Hash 的分配到 reduce 中,由于 key 分
布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的
数据量差异过大。
( 1) key 分布不均匀;
( 2)业务数据本身的特性;
( 3)建表时考虑不周;
( 4)某些 SQL 语句本身就有数据倾斜;
如何避免:对于 key 为空产生的数据倾斜,可以对其赋予一个随机值。

2)解决方案

( 1)参数调节:

hive.map.aggr = true
hive.groupby.skewindata=

以上是关于HiveHive 一些面试题的主要内容,如果未能解决你的问题,请参考以下文章

HiveHive Metrics体系

HiveHive Metrics体系

一些iOS面试题

从深圳回武汉的面试感想以及一些面试题

线程池的一些面试题

自己遇到的一些iOS面试题