hadoopzookeeper
Posted winkaaa
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoopzookeeper相关的知识,希望对你有一定的参考价值。
一、zookeeper是什么(概括)?
Zookeeper是一个分布式协调服务的开源框架,为分布式程序提供协调服务,同时用来解决分布式集群中应用系统的数据一致性问题。
zookeeper在本质上是一个分布式的小文件存储系统,以目录树方式存储数据,对树中的节点进行管理,从而维护和监控存储数据的节点状态变化,达到基于数据的集群管理目的。
Zookeeper是一个分布式协调服务的开源框架,为分布式程序提供协调服务,同时用来解决分布式集群中应用系统的数据一致性问题。
zookeeper在本质上是一个分布式的小文件存储系统,以目录树方式存储数据,对树中的节点进行管理,从而维护和监控存储数据的节点状态变化,达到基于数据的集群管理目的。
二、zookeeper特点?
1)Zookeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群
2)集群中只要有半数以上节点存储,Zookeeper集群就能正常服务
3)全局数据一致:每个Server保存一份相同的数据副本,Client无论连接到哪个Server,数据都是一致的
4)可靠性:如果消息被其中一台服务器接收,那么将被所有服务器接收
5)顺序性:更新请求顺序进行,来自同一个Client的更新请求按其发送顺序依次执行
6)数据更新原子性:一次数据更新要么成功(半数以上节点成功),要么失败,不存在中间状态 7)实时性:Zookeeper保证客户端在一定事件间隔范围内获取服务器的更新信息,或则服务器失效的信息
1)Zookeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群
2)集群中只要有半数以上节点存储,Zookeeper集群就能正常服务
3)全局数据一致:每个Server保存一份相同的数据副本,Client无论连接到哪个Server,数据都是一致的
4)可靠性:如果消息被其中一台服务器接收,那么将被所有服务器接收
5)顺序性:更新请求顺序进行,来自同一个Client的更新请求按其发送顺序依次执行
6)数据更新原子性:一次数据更新要么成功(半数以上节点成功),要么失败,不存在中间状态 7)实时性:Zookeeper保证客户端在一定事件间隔范围内获取服务器的更新信息,或则服务器失效的信息
三、zookeeper分布式环境如何搭建,步骤?
1.集群规划
在hadoop01、hadoop02和hadoop03三个节点上部署Zookeeper
2.解压安装
解压Zookeeper安装包到各服务器的/opt/module/目录下
[jinghang@hadoop01 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/
3.配置服务器编号
1)在各服务器/opt/module/zookeeper-3.4.10/这个目录下创建zkData
[jinghang@hadoop01 zookeeper-3.4.10]$ mkdir -p zkData
2)在hadoop01 上的/opt/module/zookeeper-3.4.10/zkData目录下创建一个myid的文件
jinghang@hadoop01 zkData]$ touch myid
3)编辑myid文件
[jinghang@hadoop01 zkData]$ vi myid
在文件中添加与server对应的编号:
2
4)分发配置好的myid文件到zookeeper的其他机器上(xsync:分发脚本名称)
[jinghang@hadoop01 zkData]$ xsync myid
并分别在hadoop02、hadoop03上修改myid文件中内容为3、4
4.配置各台服务器的zoo.cfg文件(可以在一台服务器上配置好后分发)
1)在hadoop01上重命名/opt/module/zookeeper-3.4.10/conf这个目录下的zoo_sample.cfg为zoo.cfg
[jinghang@hadoop01 conf]$ mv zoo_sample.cfg zoo.cfg
2)在hadoop01上打开zoo.cfg文件
[jinghang@hadoop01 conf]$ vim zoo.cfg
修改数据存储路径配置
dataDir=/opt/module/zookeeper-3.4.10/zkData
增加如下配置
#######################cluster##########################
server.2=hadoop102:2888:3888
server.3=hadoop103:2888:3888
server.4=hadoop104:2888:3888
3)分发hadoop01的zoo.cfg文件
[jinghang@hadoop01 conf]$ xsync zoo.cfg
5.启动集群,查看状态
1)分别在各个节点上启动Zookeeper
bin/zkServer.sh start
2)查看状态
bin/zkServer.sh status
1.集群规划
在hadoop01、hadoop02和hadoop03三个节点上部署Zookeeper
2.解压安装
解压Zookeeper安装包到各服务器的/opt/module/目录下
[jinghang@hadoop01 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /opt/module/
3.配置服务器编号
1)在各服务器/opt/module/zookeeper-3.4.10/这个目录下创建zkData
[jinghang@hadoop01 zookeeper-3.4.10]$ mkdir -p zkData
2)在hadoop01 上的/opt/module/zookeeper-3.4.10/zkData目录下创建一个myid的文件
jinghang@hadoop01 zkData]$ touch myid
3)编辑myid文件
[jinghang@hadoop01 zkData]$ vi myid
在文件中添加与server对应的编号:
2
4)分发配置好的myid文件到zookeeper的其他机器上(xsync:分发脚本名称)
[jinghang@hadoop01 zkData]$ xsync myid
并分别在hadoop02、hadoop03上修改myid文件中内容为3、4
4.配置各台服务器的zoo.cfg文件(可以在一台服务器上配置好后分发)
1)在hadoop01上重命名/opt/module/zookeeper-3.4.10/conf这个目录下的zoo_sample.cfg为zoo.cfg
[jinghang@hadoop01 conf]$ mv zoo_sample.cfg zoo.cfg
2)在hadoop01上打开zoo.cfg文件
[jinghang@hadoop01 conf]$ vim zoo.cfg
修改数据存储路径配置
dataDir=/opt/module/zookeeper-3.4.10/zkData
增加如下配置
#######################cluster##########################
server.2=hadoop102:2888:3888
server.3=hadoop103:2888:3888
server.4=hadoop104:2888:3888
3)分发hadoop01的zoo.cfg文件
[jinghang@hadoop01 conf]$ xsync zoo.cfg
5.启动集群,查看状态
1)分别在各个节点上启动Zookeeper
bin/zkServer.sh start
2)查看状态
bin/zkServer.sh status
四、zookeeper的常用命令(增、删、改、查、观察者、其他命令)
创建:
create [-s] [-e] path data acl
-s 有序节点(序列号递增)
-e 表示临时节点 (关闭当前会话,即删除) (临时节点下不能添加其他子节点)
删除:
delete path [version] 删除节点,并且只能删除空节点(不能存在子节点)
rmr path 递归删除节点(非空节点)
修改:
set path data [version] 修改节点数据
set /school0000000001 zhangxiaozhang
查询
ls path [watch] 获取当前节点的子节点
ls2 path [watch] 获取当前节点的子节点,还会返回当前节点的信息
get path [watch] 获取当前节点数据,并返回当前节点的信息
stat path [watch] 返回当前节点的信息
添加约束
setquota -n|-b val path (软限制,只会给警告提示)
-n:设置某节点下的最大子节点数
-b:设置某节点下的存储的最大数据量
listquota path 查看节点的约束(限制)
Output quota for /school0000000001 count=-1,bytes=-1
(count=-1,bytes=-1);表示没有添加任何限制
delquota [-n|-b] path 删除节点限制
其他命令
history 查看历史命令
redo 命令编号:该命令可以重新执行指定命令编号的历史命令,命令编号可以通过history查看
观察者:(观察者只生效一次)
ls path [watch] 获取当前节点的子节点,观察节点变化
WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/
ls2 path [watch] 获取当前节点的子节点,还会返回当前节点的信息,观察节点变化
WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/
get path [watch] 获取当前节点数据,并返回当前节点的信息 观察节点数据变化
WatchedEvent state:SyncConnected type:NodeDataChanged path:/school0000000001
stat path [watch] 返回当前节点的信息 观察节点数据属性变化
WatchedEvent state:SyncConnected type:NodeDataChanged path:/school0000000001
六、zookeeper节点类型有哪些?
总体上分为2类,细分为4类
持久节点:客户端和服务器端断开连接后,创建的节点不删除
临时节点:客户端和服务器端断开连接后,创建的节点自己删除
1)持久化目录节点
2)持久化顺序编号目录节点
3)临时目录节点
4)临时顺序编号目录节点
总体上分为2类,细分为4类
持久节点:客户端和服务器端断开连接后,创建的节点不删除
临时节点:客户端和服务器端断开连接后,创建的节点自己删除
1)持久化目录节点
2)持久化顺序编号目录节点
3)临时目录节点
4)临时顺序编号目录节点
七、Stat 结构体相关参数,须知?
1)czxid-创建节点的事务zxid
2)ctime - znode被创建的毫秒数(从1970年开始)
3)mzxid - znode最后更新的事务zxid (须知)
4)mtime - znode最后修改的毫秒数(从1970年开始)
5)pZxid-znode最后更新的子节点zxid
6)cversion - znode子节点变化号,znode子节点修改次数 (须知)
7)dataversion - znode数据变化号(修改一次会加一) (须知)
8)ephemeralOwner- 如果是临时节点,这个是znode拥有者的session id。如果不是临时节点则是0x0。 (须知)
9)dataLength- znode的数据长度 (须知)
10)numChildren - 子节点数量 (须知)
八、请简述ZooKeeper的选举机制?
全新集群选举:
假设目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选举过程如下:
服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking。
服务器2启动,给自己投票,同时与之前启动的服务器1交换结果,由于服务器2的编号大所以服务器2胜出,但此时投票数没有大于半数,所以两个服务器的状态依然是LOOKING。
服务器3启动,给自己投票,同时与之前启动的服务器1,2交换信息,由于服务器3的编号最大所以服务器3胜出,此时投票数正好大于半数,所以服务器3成为Leader,服务器1,2成为Follower。
服务器4启动,给自己投票,同时与之前启动的服务器1,2,3交换信息,尽管服务器4的编号大,但之前服务器3已经胜出,所以服务器4只能成为Follower。
服务器5启动,后面的逻辑同服务器4成为Follower。
非全新集群选举
对于运行正常的zookeeper集群,中途有机器down掉,需要重新选举时,选举过程就需要加入数据ID、服务器ID和逻辑时钟。
(数据ID、服务器ID和逻辑时钟含义说明)
数据ID:数据新的version就大,数据每次更新都会更新version。
服务器ID:就是我们配置的myid中的值,每个机器一个。
逻辑时钟:这个值从0开始递增,每次选举对应一个值。 如果在同一次选举中,这个值是一致的。
选举的标准为:
1.逻辑时钟小的选举结果被忽略,重新投票;
2.统一逻辑时钟后,数据id大的胜出,当选leader;
3.数据id相同的情况下,服务器id大的胜出,当选leader;
对于运行正常的zookeeper集群,中途有机器down掉,需要重新选举时,选举过程就需要加入数据ID、服务器ID和逻辑时钟。
(数据ID、服务器ID和逻辑时钟含义说明)
数据ID:数据新的version就大,数据每次更新都会更新version。
服务器ID:就是我们配置的myid中的值,每个机器一个。
逻辑时钟:这个值从0开始递增,每次选举对应一个值。 如果在同一次选举中,这个值是一致的。
选举的标准为:
1.逻辑时钟小的选举结果被忽略,重新投票;
2.统一逻辑时钟后,数据id大的胜出,当选leader;
3.数据id相同的情况下,服务器id大的胜出,当选leader;
九、请简述zookeeper监听原理是什么?
1)首先要有一个main()线程
2)在main线程中创建Zookeeper客户端,这时就会创建两个线程,一个负责网络连接通信(connet),一个负责监听(listener)
3)通过connect线程将注册的监听事件发送给Zookeeper
4)在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中
5)Zookeeper监听到有数据或路径变化,就会将这个消息发送给listener线程
6)listener线程内部调用process()方法
十、请简述zookeeper数据的写流程?
1)Client向ZooKeeper的Server1 写数据,发送一个写请求
2)如果Server1不是Leader,那么Server1会把接受到的这个事务请求进一步转发给Leader。
Leader会将写请求广播给各个Server,各个Server写成功后,会向Leader发送成功信息
3)当Leader收到半数以上(大多数) Server数据写成功的信息,说明该数据写成功了。Leader会告诉server1数据写成功了.
4)Server1会进一步通知 Client 数据写成功了,就认为整个写操作成功
十一、ZooKeeper的部署方式有哪几种?集群中的角色有哪些?集群最少需要几台机器?
1)部署方式:单机模式、集群模式
2)集群的角色:Leader、Follower、Observer
Leader:Zookeeper集群工作的核心,处理事务请求的唯一调度和处理者,保证集群事务处理的顺序性,并且是集群内各个服务器的总调度者。 事务说明:对于creat,setData,delete等有写操作的请求,则需要统一转发给leader处理。leader需要决定编号、执行操作,这个过程称为一个事务
Follower:处理客户端非事务(读操作)请求,转发事务请求给Leader,参与集群Leader选举投票
Observer:对于访问量比较大的集群,可以新增观察者角色,处理客户端非事务(读操作)请求,转发事务请求给Leader,不参与集群Leader选举投票
3)集群最少需要机器数:3 (2n+1台)
十二、如何在zookeeper集群中使用观察者?
在zookeeper集群中使用观察者是非常简单的,仅仅需要修改配置文件里的两个配置即可。
在所有将会配置为zookeeper观察者的节点,添加下面一行:
peerType=observer
这行配置告诉zookeeper这台服务器将会成为一个observer。
其次,在所有的服务器节点,在server定义处需要在末尾增加:observer。
例如:
server.服务器id:服务器主机名:2888:3888:observer
1)部署方式:单机模式、集群模式
2)集群的角色:Leader、Follower、Observer
Leader:Zookeeper集群工作的核心,处理事务请求的唯一调度和处理者,保证集群事务处理的顺序性,并且是集群内各个服务器的总调度者。 事务说明:对于creat,setData,delete等有写操作的请求,则需要统一转发给leader处理。leader需要决定编号、执行操作,这个过程称为一个事务
Follower:处理客户端非事务(读操作)请求,转发事务请求给Leader,参与集群Leader选举投票
Observer:对于访问量比较大的集群,可以新增观察者角色,处理客户端非事务(读操作)请求,转发事务请求给Leader,不参与集群Leader选举投票
3)集群最少需要机器数:3 (2n+1台)
十二、如何在zookeeper集群中使用观察者?
在zookeeper集群中使用观察者是非常简单的,仅仅需要修改配置文件里的两个配置即可。
在所有将会配置为zookeeper观察者的节点,添加下面一行:
peerType=observer
这行配置告诉zookeeper这台服务器将会成为一个observer。
其次,在所有的服务器节点,在server定义处需要在末尾增加:observer。
例如:
server.服务器id:服务器主机名:2888:3888:observer
以上是关于hadoopzookeeper的主要内容,如果未能解决你的问题,请参考以下文章