hbase 预分区

Posted 数据挖掘工作室

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hbase 预分区相关的知识,希望对你有一定的参考价值。

没有预分区缺点

  • 首先是热点写,我们总是会往最大的start-key所在的region写东西,因为我们的rowkey总是会比之前的大,并且hbase的是按升序方式排序的。所以写操作总是被定位到无上界的那个region中。

  • 其次,由于写热点,我们总是往最大start-key的region写记录,之前分裂出来的region不会再被写数据,有点被打进冷宫的赶脚,它们都处于半满状态,这样的分布也是不利的。

  • 如果在写比较频率的场景下,数据增长快,split的次数也会增多,由于split是比较耗时耗资源的,所以我们并不希望这种事情经常发生。


看到这些缺点,我们知道,在集群的环境中,为了得到更好的并行性,我们希望有好的load blance,让每个节点提供的请求处理都是均等的。我们也希望,region不要经常split,因为split会使server有一段时间的停顿,如何能做到呢?——随机散列与预分区

随机散列与预分区

这里取前2个字符预先分区。

 1/**
2 * @ Author: keguang
3 * @ Date: 2018/11/17 14:13
4 * @ version: v1.0.0
5 * @ description:
6 */

7public class RowKeyAction {
8    /**
9     * 生成user_label预分区的startkey, endkey
10     * @return
11     */

12    public static byte[][] getSplitKeys() {
13        String end = "|";
14
15        String[] keys = new String[]{"{0""{1""{2""{3""{4""{5",
16                "{6""{7""{8""{9""{A""{B""{C""{D""{E""{F"
17        };
18        byte[][] splitKeys = new byte[keys.length][];
19        TreeSet<byte[]> rows = new TreeSet<byte[]>(Bytes.BYTES_COMPARATOR);//升序排序
20        for (int i = 0; i < keys.length; i++) {
21            rows.add(Bytes.toBytes(keys[i] + end));
22        }
23        Iterator<byte[]> rowKeyIter = rows.iterator();
24        int i = 0;
25        while (rowKeyIter.hasNext()) {
26            byte[] tempRow = rowKeyIter.next();
27            rowKeyIter.remove();
28            splitKeys[i] = tempRow;
29            i++;
30        }
31        return splitKeys;
32    }
33
34    public static byte[][] getSplitKeys2() {
35        String end = "|";
36
37        String[] keys0 = new String[]{"{0""{1""{2""{3""{4""{5",
38                "{6""{7""{8""{9""{A""{B""{C""{D""{E""{F"
39        };
40        String[] keys00 = new String[]{"3""7""B""F"};
41        String[] keys = new String[64];
42
43
44        List<String> list = new ArrayList<>();
45        for(int i = 0;i < keys0.length;i++){
46            for(int j = 0;j < keys00.length;j++){
47                list.add(keys0[i] + keys00[j]);
48            }
49        }
50
51        int cnt = 0;
52        for(String key: list){
53            keys[cnt] = key;
54            cnt = cnt + 1;
55        }
56
57        byte[][] splitKeys = new byte[keys.length][];
58        TreeSet<byte[]> rows = new TreeSet<byte[]>(Bytes.BYTES_COMPARATOR);//升序排序
59        for (int i = 0; i < keys.length; i++) {
60            rows.add(Bytes.toBytes(keys[i] + end));
61        }
62        Iterator<byte[]> rowKeyIter = rows.iterator();
63        int i = 0;
64        while (rowKeyIter.hasNext()) {
65            byte[] tempRow = rowKeyIter.next();
66            rowKeyIter.remove();
67            splitKeys[i] = tempRow;
68            i++;
69        }
70        return splitKeys;
71    }
72}
73
74/**
75 * @version v1.0.0
76 * @Author:keguang
77 * @Date:2018/9/5 11:15
78 */

79public class Demo{
80    // 新建 hbase 表
81    @Test
82    public void test4()
{
83        String tbName = "hm2:flash_people";
84        HbaseUtil.initConnection();
85        List<String> family = new ArrayList<>();
86        family.add("info");
87        // 生成rowkeys预分区
88        byte[][] splitKeys = RowKeyAction.getSplitKeys();
89        boolean result = HbaseUtil.createTableBySplitKeys(tbName, family, splitKeys);
90        if(result){
91            System.out.println(tbName + " 建表成功...");
92        }
93    }
94}

以上是关于hbase 预分区的主要内容,如果未能解决你的问题,请参考以下文章

Hbase分区

hbase建表create高级属性 //hbase 表预分区也就是手动分区 这个很重要

大数据之Hbase:HBase优化

HBase表的预分区

hbase 预分区

HBase Rowkey的散列与预分区设计