大数据:数据分片和数据路由
Posted lijiagui
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据:数据分片和数据路由相关的知识,希望对你有一定的参考价值。
分布式存储中常见的一项技术就是 :分布式哈希表。它是哈希表的分布式的扩展,就是在多台机器的情况下,每个机器只存储一些数据,如何通过 哈希方式 对 数据 进行增,删,改,查等一些数据操作。
一致性哈希算法就是其中的一种实现方式。
上图是表示长度为5的二进制数值的 一致性哈希算法 的环状序列 的示意图 (m=5),所以这个哈希数值空间可以表达的值是从 0~31。
每个机器可以通过 Ip和端口号 经过 哈希函数 映射到 哈希数值空间内。 所以上面的每个 大圆 均表示了 一个机器节点。 N (x)中的 X 表示的是哈希数值内对应的哈希数值。
举例:N20节点 存储的是 落在 N14到N20的哈希空间范围内的数据(经过哈希后的),N5存储的是N29后落在 30~31,0~5范围内的数据。
一致性哈希算法的路由:
一种高效的路由查找方式就是: 每个机器节点都配置路由表。
原因:它原先是依靠有向环查找的,这样查找效率不太高,首先接收到 查询请求 的机器节点要根据函数 解出要查找的主键的哈希值,从本身节点的范围内先查找这个哈希值,如果不在就将它交个后趋节点,这样直到查找那个范围内有哈希值 的那个机器节点。
输入:机器节点N(i)发起初始查询请求,查询主键 Key对应的值H(Key)=j。
输出:N(i)给出对应的键值Value,或者返回键值不存在的信息。
算法:通过不同节点之间发送消息来写作完成。假设当前执行的节点为N(c),其初始值是N(i),N(c)的后趋节点为N(s).重复执行下列步骤。
步骤一:判断 c<=j<=s,如果是,结束查找,说明key如果存在,就在N(c)的后趋节点N(s)上,所以N(c)发消息给N(s)查找Key的值value,查找到后,N(s)将结果返回给N(i)。(每个消息都包含消息源 N(i).)
步骤二:否则,N(c)查找其对应的路由表,找到小于 j的最大编号N(h),N(c)向N(h)发送消息,请求它代表N(i)查找Key的值value,N(h)此时成为当前节点N(c), 继续按照步骤一和步骤二递归执行。
比如:
N(14)节点接到查询Key的键值请求,其中 H(Key)=27。
操作过程下图(红线部分):
通常情况下,路由算法发送的消息不会多于m条,因为这个过程类似于 在 0~(2的m次方-1)数值空间上的二分查找法,每次当节点 N(c)通过路由表把消息发送给节点N(h),N(h)到目标所在节点N(d)的距离不会超过N(c)到N(d)的距离的一半,所以其可以通过不超过 m 条消息查找整个数值空间。
以上是关于大数据:数据分片和数据路由的主要内容,如果未能解决你的问题,请参考以下文章