MapJoin
Posted YB西部牛仔
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapJoin相关的知识,希望对你有一定的参考价值。
两个属性来设置该优化的触发时机:
1.hive.auto.convert.join=true (default :true),自动开启mapjoin优化
2.hive.mapjoin.smalltable.filesize 默认值为2500000(25M),通过配置该
属性来确定使用该优化的表的大小,如果表的大小小于此值就会被加载进内存中
a. 通过MapReduce Local Task,将小表读入内存,生成HashTableFiles上传至Distributed Cache中
b.每个Mapper从Distributed Cache读取HashTableFiles到内存中,在Map阶段直接进行Join,此时的map数由大表的数据量决定
以上是关于MapJoin的主要内容,如果未能解决你的问题,请参考以下文章