MapJoin

Posted YB西部牛仔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapJoin相关的知识,希望对你有一定的参考价值。

两个属性来设置该优化的触发时机:

1.hive.auto.convert.join=true (default :true),自动开启mapjoin优化

2.hive.mapjoin.smalltable.filesize 默认值为2500000(25M),通过配置该

属性来确定使用该优化的表的大小,如果表的大小小于此值就会被加载进内存中

a. 通过MapReduce Local Task,将小表读入内存,生成HashTableFiles上传至Distributed Cache中

b.每个Mapper从Distributed Cache读取HashTableFiles到内存中,在Map阶段直接进行Join,此时的map数由大表的数据量决定

以上是关于MapJoin的主要内容,如果未能解决你的问题,请参考以下文章

hive mapjoin

Hive---CommonJoin和MapJoin区别

Hive 显示指定mapjoin,写法比较独特

Hive 如何使用mapjoin

hive大表和小表MapJoin关联查询优化

python mapjoin函数