大数据开发实战:Hive优化实战3-大表join大表优化
Posted shaomine
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据开发实战:Hive优化实战3-大表join大表优化相关的知识,希望对你有一定的参考价值。
5、大表join大表优化
如果Hive优化实战2中mapjoin中小表dim_seller很大呢?比如超过了1GB大小?这种就是大表join大表的问题。首先引入一个具体的问题场景,然后基于此介绍各自优化方案。
5.1、问题场景
问题场景如下:
A表为一个汇总表,汇总的是卖家买家最近N天交易汇总信息,即对于每个卖家最近N天,其每个买家共成交了多少单,总金额是多少,假设N取90天,汇总值仅取成交单数。A表的字段有:buyer_id、
seller_id、pay_cnt_90day。
B表为卖家基本信息表,其字段有seller_id、sale_level,其中sale_levels是卖家的一个分层评级信息,比如吧卖家分为6个级别:S0、S1、S2、S3、S4和S5.
要获得的结果是每个买家在各个级别的卖家的成交比例信息,比如:
某买家:S0:10%;S1:20%;S2:20%;S3:10%;S4:20%;S5:10%。
参考资料:《离线和实时大数据开发实战》
以上是关于大数据开发实战:Hive优化实战3-大表join大表优化的主要内容,如果未能解决你的问题,请参考以下文章