Mesos+Zookeeper+Marathon+Docker分布式集群管理最佳实践

Posted 2020-08-28 oldxulinux

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Mesos+Zookeeper+Marathon+Docker分布式集群管理最佳实践相关的知识，希望对你有一定的参考价值。

参考赵班长的unixhot以及马亮blog

笔者QQ：572891887

Linux架构交流群：471443208

1.1Mesos简介

Mesos是Apache下的开源分布式资源管理框架，它被称为分布式系统的内核。Mesos最初是由加州大学伯克利分校的AMPLab开发，后在Twitter得到广泛使用。

Mesos-Master：主要负责管理各个framework和slave，并将slave上的资源分配给各个framework。

Mesos-Slave：负责管理本节点上的各个mesos-task，比如：为各个executor分配资源。

Framework：计算框架，如：Hadoop、Spark、Kafaka、ElasticSerach等，通过MesosSchedulerDiver接入Mesos

Executor：执行器，就是安装到每个机器节点的软件，这里就是利用docker的容器来担任执行器的角色。具有启动销毁快，隔离性高，环境一致等特点。

Mesos-Master是整个系统的核心，负责管理接入Mesos的各个framework(由frameworks_manager管理)和slave(由slaves_manager管理)，并将slave上的资源按照某种策略分配给framework(由独立插拔模块Allocator管理)。

Mesos-Slave负责接受并执行来自Mesos-master的命令、管理节点上的mesos-task，并为各个task分配资源。Mesos-slave将自己的资源量发送给mesos-master，由mesos-master中的Allocator模块决定将资源分配给哪个framework，当前考虑的资源有CPU和内存两种，也就是说，Mesos-slave会将CPU个数的内存量发送给mesos-master，而用户提交作业时，需要指定每个任务需要的CPU个数和内存。这样:当任务运行时，mesos-slave会将任务放导包含固定资源Linux container中运行，以达到资源隔离的效果。很明显，master存在单点故障问题，为此:Mesos采用了Zookeeper解决该问题。

Framework是指外部的计算框架，如果Hadoop、Mesos等，这些计算框架可通过注册的方式接入Mesos，以便Mesos进行统一管理和资源分配。Mesos要求可接入的框架必须有一个调度模块，该调度器负责框架内部的任务调度。当一个framework想要接入Mesos时，需要修改自己的调度器，以便向Mesos注册，并获取Mesos分配给自己的资源，这样再由自己的调度器将这些资源分配给框架中的任务，也就是说，整个Mesos系统采用了双层调度框架：第一层,由Mesos将资源分配给框架。第二层,框架自己的调度器将资源分配给自己内部的任务。当前Mesos支持三中语言编写的调度器，分别是C++、Java、Python。为了向各种调度器提供统一的接入方式，Mesos内部采用C++实现了一个MesosSchedulerDriver(调度驱动器)，framework的调度器可调用该driver中的接口与Mesos-master交互，完成一系列功能(如注册，资源分配等。)

Executor主要用于启动框架内部的task。由于不同的框架，启动task的接口或者方式不同，当一个新的框架要接入mesos时，需要编写一个Executor，告诉Mesos如何启动该框架中的task。为了向各种框架提供统一的执行器编写方式，Mesos内部采用C++实现了一个MesosExecutorDiver(执行器驱动器)，framework可通过该驱动器的相关接口告诉Mesos启动task的方式。

整体架构如图1.1-1所示

图1.1-1总体架构

图1.1-1展示了Mesos的重要组成部分，Mesos由一个master进程管理运行着每个客户端节点的slave进程和跑任务的Mesos计算框架。

Mesos进程通过计算框架可以很细致的管理cpu和内存等,从而提供资源。每个资源提供都包含了一个清单(slave ID,resource1：amount1,resource2,amount2,…)master会根据现有的资源决定提供每个计算框架多少资源。例如公平分享或者根据优先级分享。

为了支持不同种的政策，master通过插件机制新增额一个allocation模块使之分配资源更简单方便。

一个计算框架运行在两个组建之上，一个是Scheduler，他是master提供资源的注册中心，另一个是Executor程序，用来发起在slave节点上运行计算框架的任务。master决定给每个计算框架提供多少计算资源，计算框架的调度去选择使用哪种资源。当一个计算框架接受了提供的资源，他会通过Mesos的任务描述运行程序。Mesos也会在相应的slave上发起任务。

资源提供案例,如图1.1-2所示

图1.1-2资源提供案例

下面我带大家一起熟悉图1.1-2的流程步骤

1、slave1报告给master他拥有4核cpu和4G剩余内存，Marathon调用allocation政策模块，告诉slave1计算框架1应该被提供可用的资源。

2、master给计算框架1发送一个在slave上可用的资源描述。

3、计算框架的调度器回复给master运行在slave上两个任务相关信息，任务1需要使用2个CPU，内存1G，任务2需使用1个CPU，2G内存。

4、最后，master发送任务给slave，分配适当的给计算框架执行器，继续发起两个任务(图1.1-2虚线处)，因为任有1个CPU和1G内存未分配，allocation模块现在或许提供剩下的资源给计算框架2。

除此之外，当任务完成，新的资源成为空闲时，这个资源提供程序将会重复。

1.2Zookeeper简介

Zookeeper是一个分不是的，开放源码的分布式应用程序协调服务，是Google的Chuby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个分布式应用提供一致性服务的软件，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

1.2.1Zookeeper角色

Leader(领导者)：负责投票发起和决议，更新系统状态。

follower(跟随者)：Follower用于接收客户请求并向客户端返回结果，在选主过程中参与投票。

ObServer(观察者)：ObServer可以接受客户端连接，将写请求转发给Leader节点，但ObServer不参加投票过程，只同步Leader的状态，ObServer的目的是为了拓展系统，提高读取速度。

Client(客户端)：请求发起方。

1.2.2Zookeeper工作原理

Zookeeper的核心是原子广播，这个机制保证了各个Server之间的同步。实现这个机制的协议叫做Zab协议。Zab协议有两种模式，它们分别是恢复模式(选主)和广播模式(同步)。当服务启动或者在领导者崩溃后，Zab就进入了恢复模式，当领导者被选举出来，且大多数Server完成了和Leader的状态同步以后，回复模式就结束了。状态同步保证了Leader和Server具有相同的系统状态。

为了保证事物的顺序一致性，Zookeeper采用了递增的事物ID号(zxid)来标识事物。所有的提议(proposal)都在被提出的时候加上了zxid。实现中zxid是一个64位的数字，它高32位是epoch用来标识Leader关系是否改变，每次一个Leader被选出来，它都会有每一个Server在工作过程中三中状态。