超详细教程！手把手带你使用Raft分布式共识性算法

Posted 2021-11-24 QcloudCommunity

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了超详细教程！手把手带你使用Raft分布式共识性算法相关的知识，希望对你有一定的参考价值。

导语 |从头理一遍Raft会给你带来新的体验与收获，让你从根本上理解Raft，理解它被提出的背景，在此背景下又是如何解决实际问题的，这才是从头实现一个Raft所带来的真正收益。本文聚焦在Raft算法的实现上，不对Raft本身做过多介绍，从领导者选举、日志同步、持久化和快照等几个层面进行展开讲解。

一、介绍

Raft目前是最著名的分布式共识性算法，被广泛的应用在etcd、k8s中。

根据Raft论文，可将Raft拆分为如下4个功能模块：

领导者选举
日志同步、心跳
持久化
日志压缩，快照

这4个模块彼此并不完全独立，如日志的同步情况左右着领导者选举，快照也影响着日志同步等等；为了前后的递进性，对于一些功能的实现，可能会出现改动和优化，比如日志同步实现后，在数据持久化部分又会对同步做一些优化，提高主、从节点日志冲突解决的性能。

二、领导者选举

Raft算法是目前使用最为广泛的分布式共识性算法，在数据共识性的问题上，Raft使用「强领导者」模型，即：

一个集群中有且只有一个领导者。

所有数据写请求，都必须由领导者处理，领导者接受后再同步给其它节点。

领导者是绝对的「土皇帝」，不断地向追随者发送号令(同步日志)。

因此，在一个使用Raft算法的集群中，「领导者选举」是集群的第一步。一个集群的节点个数往往是「奇数」，如 3、5 等，这样就避免了选举时会发生脑裂(出现了多个领导者)的情况。

（一）节点状态

在Raft集群中，一个节点会存在如下3种状态：

追随者(Follower)，追随领导者，接收领导者日志，并实时同步。

协调者(Candidate)，选举时会触发的状态，如追随者一定时间内未收到来自领导者的心跳包，追随者会自动切换为协调者，并开始选举操作，向集群中的其它节点发送投票请求，待收到半数以上的选票时(如3节点集群，需收到2票，含自己的1票)，协调者升级成为领导者。

领导者(Leader)，集群土皇帝，不断地向集群其它节点发号施令(心跳、日志同步)，其它节点接到领导者日志请求后成为其追随者。

因此在具体谈到Raft算法实现之前，我们需要先来解决这三个状态。首先我们需要对节点这个概念进行抽象，如下：

// raft.go
type Raft struct {
    mu        sync.Mutex          // 锁
    peers     []*labrpc.ClientEnd // 集群信息
    persister *Persister          // 持久化
    me        int                 // 当前节点 id
    dead      int32               // 是否死亡，1 表示死亡，0 还活着


    state       PeerState     // 节点状态
    currentTerm int           // 当前任期
    votedFor    int           // 给谁投过票
    leaderId    int           // 集群 leader id
    applyCh     chan ApplyMsg // apply message channel
}

在这段代码中，Raft结构体是对Raft节点的一个抽象，每一个Raft实例可表示一个Raft节点，每一个节点会有集群元数据(peers)，节点元数据(me、state、currentTerm等)等信息。在领导者选举部分，有3个重要的字段需要说明：

state：节点状态，当前节点处于领导者、还是追随者。

votedFor：投票记录，当前节点在当前任期内给「那个」节点投过票。

currentTerm：节点当前所在的任期。

「任期」是Raft算法中一个非常重要的概念，你可以将其理解为「逻辑时钟」，每一个节点在初始化时，状态为追随者，任期为0，当一定时间内未收到领导者日志后，会自动成为协调者，并给自己投票，且任期+1，如下面的becomeCandidate函数：

// state.go
type PeerState string
const (
    Follower  PeerState = "follower"
    Candidate PeerState = "candidate"
    Leader    PeerState = "leader"
)
func (rf *Raft) becomeLeader() {
    rf.state = Leader
    rf.leaderId = rf.me
}
func (rf *Raft) becomeCandidate() {
    rf.state = Candidate
    rf.votedFor = rf.me // vote for me
    rf.currentTerm += 1
}
func (rf *Raft) becomeFollower(term int) {
    rf.state = Follower
    rf.votedFor = -1
    rf.currentTerm = term
}

在这里，我们定义了Follower、Candidate和Leader三种状态，一个节点可以在这三种状态中切换，如becomeLeader函数，会将当前节点切换为领导者状态，并且设置leaderId为自己。becomeCandidate函数上面也谈到了，节点成为协调者后会增加任期，并给自己投票；调用becomeFollower函数时，节点会切换为追随者状态，且重置votedFor字段，追随者更新任期后，重新拥有「选票权」，可以进行投票。

这里抛出2个问题：选举过程是如何产生的？任期在选举过程中发挥了什么作用了？下面我们来一一解答。

（二）选举

Raft集群节点初始化时，会在节点内部存储集群元数据(如 peers)，节点需要通过集群元数据信息与其它节点进行沟通，而沟通的方式是RPC请求。

选举指的是，集群中的某一个节点，在成为协调者后，不满足于自己现在状态，迫切的想要成为领导者(土皇帝)，虽然它给自己投了1票，但很显然1票是不够，它需要其它节点的选票才能成为领导者。

因此协调者会与其它节点进行沟通协商(RPC请求)，当然它暂时不会沟通别的，只会向其它节点发送投票RPC请求(RequestVote RPC请求)；因此选举的过程实则就是：追随者未收到日志同步(也可理解为心跳)转变成为协调者，给自己投票后迫切地想成为领导者，并通过RPC请求其它节点给自己投票。

翻译成代码，大致如下：

// raft.go
func Make(peers []*labrpc.ClientEnd, me int,
    persister *Persister, applyCh chan ApplyMsg) *Raft {
    rf := &amp;Raft{}
    rf.peers = peers
    rf.persister = persister
    rf.me = me
    rf.votedFor = -1
    rf.state = Follower
    rf.currentTerm = 0
    rf.leaderId = -1
    rf.applyCh = applyCh
    rf.readPersist(persister.ReadRaftState())
    // start ticker goroutine to start elections
    go rf.ticker()
    return rf
}

Make函数负责新建一个Raft节点，抛开applyCh，readPersist这些东西先不管，我们关注的是state，votedFor，currentTerm这些字段。和上面说的一致，节点初始化时为追随者状态，且拥有选票(votedFor为-1)，并且任期为0。那么这个追随者是如何超时成为协调者的呢？答案在ticker这个函数中：

// raft.go
func (rf *Raft) ticker() {
    for rf.killed() == false {
        time.Sleep(getRandElectTimeout())
        rf.mu.Lock()
        // 如果已经是 leader 了，则跳过下面逻辑
        if rf.state == Leader {
            rf.mu.Unlock()
            continue
        }
        rf.becomeCandidate()
        var votes int32 = 1 // 自己的一票
        for peerId, _ := range rf.peers {
            if peerId == rf.me { // 跳过自己，向其它节点发送请求
                continue
            }
            go rf.sendRequestVoteToPeer(peerId, &amp;votes)
        }
        rf.mu.Unlock()
    }
}

ticker是由go关键字开启的一个死循环(loop)，即节点被创建后会一直运行，除非节点被杀死，永远不会停止。进入循环后，节点会通过Sleep函数休眠一段时间，这段时间就是节点的心跳超时时间，在这段时间内，如果当前节点还未收到来自领导者的心跳请求，那么节点就会自动从追随者切换到协调者，当然由于日志暂时还未实现，因此目前ticker会休眠一段后，自动成为协调者，这部分将在后面一一完成。

节点成为协调者后，会向集群中的其它节点发送投票RPC请求，即sendRequestVoteToPeer函数。

该函数会向其它节点发送RequestVote RPC请求，在论文中，RequestVote是这样定义的：

图中划红线的字段暂时不需要。转化为代码如下：

type RequestVoteArgs struct {
    Term        int  // 请求者任期
    CandidateId int  // 请求者 id
}
type RequestVoteReply struct {
    Term        int  // 回复者任期
    VoteGranted bool // 是否投票，true 则投票
}

RequestVoteArgs是RequestVote RPC请求参数，RequestVoteReply是响应结果。请求者通过sendRequestVote函数向某个节点发送RequestVote RPC请求：

func (rf *Raft) sendRequestVote(server int, args *RequestVoteArgs, reply *RequestVoteReply) bool {
    ok := rf.peers[server].Call("Raft.RequestVote", args, reply)
    return ok
}

其它节点受到请求后，会自动调用RequestVote函数进行处理：

func (rf *Raft) RequestVote(args *RequestVoteArgs, reply *RequestVoteReply) {
    rf.mu.Lock()
    defer rf.mu.Unlock()
    reply.Term = rf.currentTerm
    reply.VoteGranted = false
    if args.Term < rf.currentTerm {
        return
    }
    // 发现任期大的，成为 follower
    if args.Term > rf.currentTerm {
        rf.becomeFollower(args.Term)
    }
    if rf.votedFor == -1 || rf.votedFor == args.CandidateId {
        reply.VoteGranted = true
        rf.votedFor = args.CandidateId // 投票后，记得更新 votedFor
    }
}

注意：这里，我们无需纠结这个RPC是如何产生的，只需要知道sendRequestVote发出的RPC请求会被RequestVote函数处理然后返回。

这个地方，我们再来回答刚才提出的问题：任期在选举过程中究竟有何作用了？

「任期」表示节点的逻辑时钟，任期高的节点拥有更高的话语权。在RequestVote这个函数中，如果请求者的任期小于当前节点任期，则拒绝投票；如果请求者任期大于当前节点人气，那么当前节点立马成为追随者。

「投票」建立在双方任期一致的情况下，如果当前节点未投过票(即 votedFor为-1)，或者已经给请求者投过票，那么仍然可以为请求者投票(VoteGranted=true)，投票后需设置votedFor字段为请求者id。

我们再回到sendRequestVoteToPeer这个函数上来，协调者通过该函数向其它节点发送投票请求，并在函数中对请求结果进行处理，如下：

func (rf *Raft) sendRequestVoteToPeer(peerId int, votes *int32) {
    rf.mu.Lock()
    args := RequestVoteArgs{
        Term:        rf.currentTerm,
        CandidateId: rf.me,
    }
    reply := RequestVoteReply{}
    rf.mu.Unlock()
    ok := rf.sendRequestVote(peerId, &amp;args, &amp;reply)
    if !ok {
        return
    }
    rf.mu.Lock()
    defer rf.mu.Unlock()
    // 如果当前的状态不为 candidate，那么将不能接受选票，所以直接返回
    if rf.state != Candidate || args.Term != rf.currentTerm {
        return
    }
    if reply.Term > rf.currentTerm {
        rf.becomeFollower(reply.Term)
        return
    }
    if reply.VoteGranted {
        atomic.AddInt32(votes, 1)
        curVotes := int(atomic.LoadInt32(votes))
        if curVotes >= (len(rf.peers)+1)/2 {
            rf.becomeLeader()
            return
        }
    }
}

代码3～7行，请求者将自己的任期、id信息包装为请求结构体，并通过sendRequestVote函数发送RPC请求。代码16～30行，请求者拿到响应结果后，处理响应数据。首先判断节点是否为协调者，如不是则直接返回，如果在发送RPC过程中，节点任期发生了变化(不同任期的选票不能使用)，也直接返回；如果发现回复者任期大，那么立马成为追随者并返回；增加选票数，如果超过了半数，协调者立即成为领导者。

在这里，我们也发现了一条黄金铁律：任期大的节点对任期小的拥有绝对的话语权，一旦发现任期大的节点，立马成为其追随者。

（三）小结

领导者选举主要工作可总结如下：

三个状态，节点状态之间的转换函数。
1个loop——ticker。
1个RPC请求和处理，用于投票。

另外，ticker会一直运行，直到节点被kill，因此集群领导者并非唯一，一旦领导者出现了宕机、网络故障等问题，其它节点都能第一时间感知，并迅速做出重新选举的反应，从而维持集群的正常运行，毕竟国不可一日无主，Raft集群一旦失去了领导者，就无法工作。

对于领导者而言，一旦当选，就必须不停的向其它节点宣示自己的地位，只要朕还在一日，尔等仍是太子。

那么领导者如何向其它节点宣示自己的地位了？这就是日志同步这个模块要解决的问题。

三、日志同步

日志同步是领导者独有的权利，领导者向追随者发送日志，追随者同步日志。

日志同步要解决如下两个问题：

领导者宣示自己的主权，追随者不可造反(再次选举)。

领导者将自己的日志数据同步到追随者，达到数据备份的效果。

同样地，日志同步也需要与其它节点进行沟通，对应论文中的AppendEntriesArgs RPC请求，如下图所示：

将其翻译为代码：

// log.go
type AppendEntriesArgs struct {
    Term         int        // leader 任期
    LeaderId     int        // leader id
    PrevLogIndex int        // leader 中上一次同步的日志索引
    PrevLogTerm  int        // leader 中上一次同步的日志任期
    Entries      []LogEntry // 同步日志
    LeaderCommit int        // 领导者的已知已提交的最高的日志条目的索引
}
type AppendEntriesReply struct {
    Term    int  // 当前任期号，以便于候选人去更新自己的任期号
    Success bool // 是否同步成功，true 为成功
}

在RPC参数有几个重要字段：

PreLogIndex：领导者与节点上一次同步的日志序号。
PreLogTerm：领导者与节点上一次同步的日志任期。
Entries：待同步日志数据。
LeaderCommit：领导者日志提交序号。

领导者与追随者之间的日志同步有一种特殊情况：Entries为空，即无日志同步，既然没有日志需要发送，那么为什么要发送AppendEntries请求了？

因为领导者需要宣示自己的权利，如果领导者不发送请求，那么追随者会认为领导者「死亡」了，会自发的进行下一轮选举，霸道的领导者肯定不愿意这种情况发生，因此即使日志是空的，也要发送AppendEntries请求，这种特殊的场景被称为「心跳」。

追随者在一定时间内收到日志同步请求或者心跳，都会重置自己「选举超时时间」，因此就不会发出下一轮选举，领导者一直是安全的。

既然领导者需要不断地与追随者同步日志，那么领导者如何知道追随者日志的同步情况了？

Raft节点使用nextIndex，matchIndex等字段来维护这些信息，如下：

type Raft struct {
    // ....省略
    state       PeerState
    currentTerm int           // 当前任期
    votedFor    int           // 给谁投过票
    leaderId    int           // 集群 leader id
    applyCh     chan ApplyMsg // apply message channel
    // 2B
+   log                    rLog      // 日志
+   lastReceivedFromLeader time.Time // 上一次收到 leader 请求的时间
+   nextIndex              []int     // 下一个待发送日志序号，leader 特有
+   matchIndex             []int     // 已同步日志序号，leader 特有
+   commitIndex            int       // 已提交日志序号
+   lastApplied            int       // 已应用日志序号
}

log：节点日志数据。
lastReceivedFromLeader：上一次收到leader请求的时间。
nextIndex：节点下一个待同步的日志序号。
matchIndex：节点已同步的日志序号。
commitIndex：已提交的日志序号。
lastApplied：已应用的日志序号。

（一）日志

Raft集群中的节点通过日志来保存数据，且日志是只可追加的(Append-only)，如下图所示：

以KV为例，日志可以看作是一个不断增加的数组，从0开始，序号为0的日志内容为x=1，即将x的值设为1；由于旧日志不可修改，因此如果需要修改x，那么就只能通过追加覆盖的方式，即序号为2的日志x=5。

那么日志「已提交」与「已应用」有什么区别了？

仍以上图为例，假设日志的提交序号为2，即x=5已提交，但是日志的应用序号为1，即x=5未应用，但已提交，因此实际可见的数据其实是这样的：

x值为1，而y为3，而一旦日志2被应用后，x值就会被更改(日志数据不变，x可见数据会变)，如下：

虽然日志数据没有发生改变，但是x可见值却发生了改变，可以将日志序号理解为版本，新版本会覆盖旧版本的值。

（二）状态机

已提交的日志被应用后才会生效，那么数据的可见性由何种机制来保证了？Raft使用了状态机来保证相同日志被应用不同节点后，数据是一致的。如下图所示：

状态机保证了不同节点在被应用了相同日志后，数据的可见性是一致的，这样就能保证集群数据的一致性，这也是Raft算法的根本目的所在。

继续来看log这个字段，Raft节点将所有日志以追加的方式保存到了log 中，log本质上是一个数组(切片)，如下：

// rLog.go
type LogEntry struct {
    Term    int         // 任期
    Command interface{} // 命令
}
type rLog struct {
    Entries []LogEntry
}
func defaultRLog() rLog {
    return rLog{
        Entries: []LogEntry{
            {
                Term:    0,
                Command: nil,
            },
        },
    }
}
func (l *rLog) entryAt(index int) LogEntry {
    return l.Entries[index-l.first()]
}


func (l *rLog) append(entry ...LogEntry) {
    l.Entries = append(l.Entries, entry...)
}


func (l *rLog) last() int {
    if len(l.Entries) == 0 {
        return 0
    }
    return len(l.Entries) - 1
}
func (l *rLog) lastTerm() int {
    return l.Entries[l.last()].Term
}
func (l *rLog) first() int {
    return 0
}
func (l *rLog) firstTerm() int {
    return l.Entries[l.first()].Term
}
func (l *rLog) size() int {
    return len(l.Entries)
}

每一条日志都可被抽象为LogEntry，其有两个字段：

Term：日志任期。
Command：日志内容，任意类型，根据具体业务来实现。

rLog结构体用来保存节点日志，其核心字段Entries就是用来存储日志内容的切片。我们顺便也给rLog定义了一系列函数方便访问日志数据(避免每次在业务中对切片进行操作)。

注意：defaultRLog函数返回一个默认的rLog，根据Raft论文中的阐述，日志切片的第一个作为占位使用，因此在初始化时，我们推入了一个Command为nil的日志。

（三）同步

日志同步是领导者独有的功能，因此在成为领导者后，第一时间就是初始化 nextIndex、matchIndex 并且开始日志同步，如下：

func (rf *Raft) becomeLeader() {
    rf.state = Leader
    rf.leaderId = rf.me
+   l := len(rf.peers)
+   rf.nextIndex = make([]int, l)
+   rf.matchIndex = make([]int, l)
+   for i := 0; i < l; i++ {
+      // nextIndex[0] 表示 0 号 peer
+      rf.nextIndex[i] = rf.log.last() + 1 // 初始值为领导者最后的日志序号+1
+      rf.matchIndex[i] = 0                // 初始值为 0，单调递增
+   }
+   go rf.ping()
}

这里，我们就能发现nextIndex、matchIndex的含义了，成为领导者后，领导者并不知道其它节点的日志情况，因此与其它节点需要同步那么日志，领导者并不知道，因此他选择了「试」。nextIndex、macthIndex 的长度都是节点个数，如3，其中nextIndex[0]、matchIndex[0]分别用来保存节点0的下一个待同步日志序号、已同步日志序号。

nextIndex初始化值为log.last+1，即领导者最后一个日志序号+1，因此其实这个日志序号是不存在的，显然领导者也不指望一次能够同步成功，而是拿出一个值来试探。

matchIndex初始化值为0，这个很好理解，因为他还未与任何节点同步成功过，所以直接为0。

最后领导者通过ping函数来周期性地向其它节点同步日志(或心跳)，如下：

func (rf *Raft) ping() {
    for rf.killed() == false {
        rf.mu.Lock()
        if rf.state != Leader {
            rf.mu.Unlock()
            // 如果不是 leader，直接退出 loop
            return
        }
        for peerId, _ := range rf.peers {
            if peerId == rf.me {
                // 更新自己的 nextIndex 和 matchIndex
                rf.nextIndex[peerId] = rf.log.size()
                rf.matchIndex[peerId] = rf.nextIndex[peerId] - 1
                continue
            }
            go rf.sendAppendEntriesToPeer(peerId)
        }
        rf.mu.Unlock()
        time.Sleep(heartbeatInterval)
    }
}

和ticker一样，ping同样是一个死循环，但是领导者独有的。一旦发现当前状态不为leader，立马退出循环(代码第4行)，领导者通过sendAppendEntriesToPeer函数向其它所有节点(自己除外)发送AppendEntries RPC请求。与RequestVote类似，调用sendAppendEntries函数发送请求：

func (rf *Raft) sendAppendEntries(server int, args *AppendEntriesArgs, reply *AppendEntriesReply) bool {
    ok := rf.peers[server].Call("Raft.AppendEntries", args, reply)
    return ok
}

请求达到节点后，会自动调用AppendEntries函数处理请求：

func (rf *Raft) AppendEntries(args *AppendEntriesArgs, reply *AppendEntriesReply) {
    rf.mu.Lock()
    defer rf.mu.Unlock()


    reply.Term = rf.currentTerm
    reply.Success = false
    if args.Term < rf.currentTerm {
        return
    }
    // 如果你大，那就成为 follower
    if args.Term > rf.currentTerm {
        rf.becomeFollower(args.Term)
        rf.leaderId = args.LeaderId
    }
    if rf.state != Follower {
        rf.becomeFollower(args.Term)
    }
    rf.leaderId = args.LeaderId
    rf.lastReceivedFromLeader = time.Now()
    logSize := rf.log.size()
    // 日志、任期冲突直接返回
    if args.PrevLogIndex >= logSize || rf.log.entryAt(args.PrevLogIndex).Term != args.PrevLogTerm {
        return
    }
    entriesSize := len(args.Entries)
    insertIndex := args.PrevLogIndex + 1
    entriesIndex := 0
    // 遍历日志，找到冲突日志
    for {
        // 超过了长度 break
        if insertIndex >= logSize || entriesIndex >= entriesSize {
            break
        }
        // 日志冲突，break
        if rf.log.entryAt(insertIndex).Term != args.Entries[entriesIndex].Term {
            break
        }
        insertIndex++
        entriesIndex++
    }
    // 追加日志中尚未存在的任何新条目
    if entriesIndex < entriesSize {
        // [0,insertIndex) 是之前已经同步好的日志
        rf.log.subTo(insertIndex - rf.log.first())
        rf.log.append(args.Entries[entriesIndex:]...)
    }
    // 取两者的最小值
    if args.LeaderCommit > rf.commitIndex {
        rf.commitIndex = minInt(args.LeaderCommit, rf.log.last())
    }
    reply.Success = true
}

AppendEntries处理请求是比较复杂的，首先代码7～14行，二者几乎一致，如果任期小则拒绝，任期大，则称为其追随者。代码15～19行，如果收到AppendEntries请求，当前节点必须立马成为追随者(土皇帝来了！)，并且更新leaderId和 lastReceivedFromLeader，即更新超时心跳时间。

代码22行，如果日志完全冲突，上一个同步日志序号超过了当前节点的日志大小，或者任期不一致，那么直接返回false。

代码25~46行，解决日志部分冲突的问题，如果集群发生了领导者更换，新领导者的日志与现有节点日志有很多冲突，那么需要依次遍历日志，找到不冲突的起始序号，删除冲突日志，然后继续同步(由于Raft的特性，如果后面的日志是匹配的，那么前面的日志一定是匹配的)。

代码48~49行，根据领导者日志提交序号来更新日志提交序号，日志提交序号=min(leaderCommit, last)。

最后返回true给领导者，同步成功。领导者收到这个响应后，处理：

func (rf *Raft) sendAppendEntriesToPeer(peerId int) {
    rf.mu.Lock()
    nextIndex := rf.nextIndex[peerId]
    prevLogTerm := 0
    prevLogIndex := 0
    entries := make([]LogEntry, 0)
    // 可能会存在 nextIndex 超过 rf.log 的情况
    if nextIndex <= rf.log.size() {
        prevLogIndex = nextIndex - 1
    }
    prevLogTerm = rf.log.entryAt(prevLogIndex).Term
    entries = rf.log.getEntries(nextIndex-rf.log.first(), rf.log.size())
    args := AppendEntriesArgs{
        Term:         rf.currentTerm,
        LeaderId:     rf.me,
        PrevLogIndex: prevLogIndex,
        PrevLogTerm:  prevLogTerm,
        Entries:      entries,
        LeaderCommit: rf.commitIndex,
    }
    reply := AppendEntriesReply{}
    rf.mu.Unlock()
    // 发送 RPC 的时候不要加锁
    ok := rf.sendAppendEntries(peerId, &amp;args, &amp;reply)
    if !ok {
        return
    }


    rf.mu.Lock()
    defer rf.mu.Unlock()
    if rf.state != Leader || args.Term != rf.currentTerm {
        return
    }
    if reply.Term > rf.currentTerm {
        rf.becomeFollower(reply.Term)
        rf.leaderId = peerId
        return
    }
    if reply.Success {
        // 1. 更新 matchIndex 和 nextIndex
        rf.matchIndex[peerId] = prevLogIndex + len(args.Entries)
        rf.nextIndex[peerId] = rf.matchIndex[peerId] + 1
        // 2. 计算更新 commitIndex
        newCommitIndex := getMajorIndex(rf.matchIndex)
        if newCommitIndex > rf.commitIndex {
            rf.commitIndex = newCommitIndex
        }
    } else {
        // 同步失败，回退一步
        rf.nextIndex[peerId] -= 1
        if rf.nextIndex[peerId] < 1 {
            rf.nextIndex[peerId] = 1
        }
    }
}

回到sendAppendEntriesToPeer函数中来，领导者通过该函数向其它节点发送同步日志，首先领导者通过nextIndex获取发送节点下一个要同步的日志序号，将其-1就是上一个已同步的日志序号。然后将这些信息包装为参数发送给节点，收到节点响应后，根据结果来处理。

代码31行，如果不再是领导者、前后任期不一致，直接返回。代码34行，黄金铁律，发现任期大的，立马成为追随者。

代码41～47行，如果同步成功则更新该节点的matchIndex和nextIndex，并且根据matchIndex来推进commitIndex；这里原理很简单，领导者的commitIndex必须建立在集群的大部分节点均已匹配的基础上，因此getMajorIndex实则取的是 matchIndex的中位数，这个地方的序号已经被大部分节点同步到了，因此就可以用来更新领导者的commitIndex。

代码50～53行，如果同步失败了，更新nextIndex，这个地方比较粗暴，直接回退-1，不断的试探，直至试出匹配值(待优化)。

在ping函数中，领导者正是通过不间断的日志同步，冲突则重新同步的方式来与其它节点同步数据，若所有节点日志均已同步完成，那么AppendEntries被视为心跳，控制追随者勿发起新的选举。

（四）完善选举

在领导者选举中，我们提到是否投出选票还与日志有关，那么有何关联了？

实则也简单，为了保证日志「更加完善」的节点能够当选领导者，因此选票会向日志完善的节点倾斜，这被称为upToDate条件。如下：

type RequestVoteArgs struct {
   // ...
   // 2B
+   LastLogTerm  int
+   LastLogIndex int
}


func (rf *Raft) RequestVote(args *RequestVoteArgs, reply *RequestVoteReply) {
   // Your code here (2A, 2B).
   // 1. 如果 term < currentTerm 返回 false （5.2 节）
   // 2. 如果 votedFor 为空或者为 candidateId，并且候选人的日志至少和自己一样新，那么就投票给他（5.2 节，5.4 节）
   rf.mu.Lock()
   defer rf.mu.Unlock()
   // 省略....
+   upToDate := false
+   // 如果两份日志最后的条目的任期号不同，那么任期号大的日志新
+   if args.LastLogTerm > rf.log.lastTerm() {
+      upToDate = true
+   }
+   // 如果两份日志最后的条目任期号相同，那么日志比较长的那个就新
+   if rf.log.lastTerm() == args.LastLogTerm &amp;&amp; args.LastLogIndex >= rf.log.last() {
+      upToDate = true
+   }
+   if (rf.votedFor == -1 || rf.votedFor == args.CandidateId) &amp;&amp; upToDate {
+      reply.VoteGranted = true
+      rf.votedFor = args.CandidateId // 投票后，记得更新 votedFor
+   }
}


func (rf *Raft) sendRequestVoteToPeer(peerId int, votes *int32) {
   rf.mu.Lock()
   args := RequestVoteArgs{
      Term:         rf.currentTerm,
      CandidateId:  rf.me,
+      LastLogIndex: rf.log.last(),
+      LastLogTerm:  rf.log.lastTerm(),
   }
  // 省略....
}

请求者在发送RequestVote请求时，会附带上自己日志的最后序号和任期；回复者接收到这两条信息后，会将其与自己的任期和日志进行比较，来看看双方谁的日志比较完整。首先比较任期，任期大的更新话语权，如果请求者的最后任期大，那么upToDate为true，如果任期相同，但请求者的日志序号大或者相等，那么upToDate为true，只有当upToDate为true 时，当前节点才能投出选票。

（五）日志应用

在Raft节点中还有lastApplied这个重要的字段，维护着当前节点的日志应用序号。在日志同步的过程中，commitIndex会不断的更新，但lastApplied似乎一直没有变过，因为我们把它遗忘了，按照Raft论文的说话，一旦发现commitIndex大于lastApplied，应该立马将可应用的日志应用到状态机中。

那么如何应用了？答案就是applyCh这个字段。

Raft节点本身是没有状态机实现的，状态机应该由Raft的上层应用来实现，因此我们不会谈论如何实现状态机，只需将日志发送给applyCh这个通道即可。如下：

func (rf *Raft) applyLog() {
   for rf.killed() == false {
      time.Sleep(applyInterval)
      rf.mu.Lock()
      msgs := make([]ApplyMsg, 0)
      for rf.commitIndex > rf.lastApplied {
         rf.lastApplied++ // 上一个应用的++
         // 超过了则回退，并 break
         if rf.lastApplied >= rf.log.size() {
            rf.lastApplied--
            break
         }
         msg := ApplyMsg{
            CommandValid: true,
            Command:      rf.log.entryAt(rf.lastApplied).Command,
            CommandIndex: rf.lastApplied,
         }
         msgs = append(msgs, msg)
      }
      rf.mu.Unlock()
      for _, msg := range msgs {
         rf.applyCh <- msg
      }
   }
}

applyLog是Raft实现中的第三个死循环，且每个节点都有。主要工作就是周期性的检查commitIndex与lastApplied，一旦发现commitIndex 大于lastApplied，立马将lastApplied值推到与commitIndex一致。ApplyMsg是应用日志的结构体定义，如下：

type ApplyMsg struct {
   CommandValid bool // 是否有效，无效则不应用
   Command      interface{} // 日志命令
   CommandIndex int // 日志序号
}

ApplyMsg会被发送到applyCh通道中，上层服务接收到后，将其应用到状态机中。applyLog同样是通过go关键字开启的一个协程，如下：

func Make(peers []*labrpc.ClientEnd, me int,
   persister *Persister, applyCh chan ApplyMsg) *Raft {
    rf := &amp;Raft{}
    // 省略...
    rf.applyCh = applyCh
    // 2B
+   rf.log = defaultRLog()
+   rf.lastReceivedFromLeader = time.Now()
+   rf.commitIndex = 0
+   rf.lastApplied = 0
    // initialize from state persisted before a crash
    rf.readPersist(persister.ReadRaftState())
    // start ticker goroutine to start elections
    go rf.ticker()
+   go rf.applyLog()
    return rf
}

（六）小结

日志同步主要工作可总结如下：

2个loop，ping领导者独有，applyLog所有节点均有，推进日志应用。
1个RPC请求和处理，用于日志同步。
完善选举，加入日志完整度判断。

到此，选举、日志同步均已完成，那么如果集群中的节点发生了宕机，已经同步好的日志都丢了怎么办？如何解决这个问题，这就是持久化模块的功能了。

四、持久化

数据持久化是Raft四大模块中最简单的一部分。在Raft论文中指出，需要持久化的字段只有三个：

分别是currentTerm(当前任期)，votedFor(给谁投过票)，log(日志数据)。数据落盘的编码方式有很多种，这里我们选择比较简单的gob编码，代码实现如下：

// 将数据持久化到磁盘
func (rf *Raft) persist() {
    w := new(bytes.Buffer)
    e := labgob.NewEncoder(w)
    e.Encode(rf.currentTerm)
    e.Encode(rf.votedFor)
    e.Encode(rf.log)
    data := w.Bytes()
    rf.persister.SaveRaftState(data)
}
// 从磁盘中读取数据并解码
func (rf *Raft) readPersist(data []byte) {
    if data == nil || len(data) < 1 { 
        return
    }
    r := bytes.NewBuffer(data)
    d := labgob.NewDecoder(r)
    var (
        currentTerm int
        votedFor    int
        log         rLog
    )
    if d.Decode(&amp;currentTerm) != nil ||
        d.Decode(&amp;votedFor) != nil ||
        d.Decode(&amp;log) != nil {
        DPrintf("decode persisted state err.")
    } else {
        rf.currentTerm = currentTerm
        rf.votedFor = votedFor
        rf.log = log
    }
}

persist函数负责将当前Raft节点中需要持久化的字段保存至磁盘中，而 readPersist函数负责从磁盘中读取数据并反序列化为currentTerm、votedFor和log三个字段。对于readPersist函数，在Raft节点创建的时候调用它一次，如下：

func Make(peers []*labrpc.ClientEnd, me int,
    persister *Persister, applyCh chan ApplyMsg) *Raft {
    rf := &amp;Raft{}
    // 省略
    // initialize from state persisted before a crash
    rf.readPersist(persister.ReadRaftState())
    // 省略
    return rf
}

而persist函数则稍微复杂一些，不过只需记住一条黄金铁律即可：currentTerm、votedFor和log任何一个字段只要发生了更改，立马调用persist函数。在投票模块中，节点状态改变、投出选票等操作均会引起这三个字段的改变，在改变后加上persist函数即可：

func (rf *Raft) RequestVote(args *RequestVoteArgs, reply *RequestVoteReply) {
   // 省略
   // 发现任期大的，成为 follower
   if args.Term > rf.currentTerm {
      rf.becomeFollower(args.Term)
+      rf.persist()
   }
   // 省略
   if (rf.votedFor == -1 || rf.votedFor == args.CandidateId) &amp;&amp; upToDate {
      reply.VoteGranted = true
      rf.votedFor = args.CandidateId // 投票后，记得更新 votedFor
+      rf.persist()
   }
}


func (rf *Raft) sendRequestVoteToPeer(peerId int, votes *int32) {
   // 省略
   if reply.Term > rf.currentTerm {
      rf.becomeFollower(reply.Term)
+      rf.persist()
      return
   }
   // 省略
}

在ticker函数中，如果心跳超时节点会自发成为协调者，任期和选票均会发生改变，因此：

func (rf *Raft) ticker() {
   for rf.killed() == false {
      // 省略
      rf.becomeCandidate()
+      rf.persist()
      // 省略
   }
}

同样地，在日志同步模块也会引发日志、状态的改变：

func (rf *Raft) AppendEntries(args *AppendEntriesArgs, reply *AppendEntriesReply) {
   // 省略
   // 如果你大，那就成为 follower
   if args.Term > rf.currentTerm {
      rf.becomeFollower(args.Term)
      rf.leaderId = args.LeaderId
+      rf.persist()
   }
   if rf.state != Follower {
      rf.becomeFollower(args.Term)
+      rf.persist()
   }
   // 省略
   // 追加日志中尚未存在的任何新条目
   if entriesIndex < entriesSize {
      // [0,insertIndex) 是之前已经同步好的日志
      rf.log.subTo(insertIndex - rf.log.first())
      rf.log.append(args.Entries[entriesIndex:]...)
+      rf.persist()
   }
   reply.Success = true
}
func (rf *Raft) sendAppendEntriesToPeer(peerId int) {
   // 省略
   if reply.Term > rf.currentTerm {
      rf.becomeFollower(reply.Term)
      rf.leaderId = peerId
+      rf.persist()
      return
   }
   // 省略
}

对于persist的调用时机其实是很容易把握的，只需记住任何引起该三个字段发生改变的操作都必须紧接着一次persist函数即可。

（一）优化冲突同步

在日志同步模块中，我们提到：如果同步失败了，更新nextIndex，这个地方比较粗暴，直接回退1，不断的试探，直至试出匹配值(待优化)。

每次-1的试探是非常低效了，试想一下，如果二者日志相差几百，那么就得几百次试探，集群可能需要很久才都达到一致。因此提高同步效率，我们需要优化同步冲突问题。

思路也很简单，在同步发生冲突后，不再靠领导者一点点试探，而是追随者主动告诉领导者冲突的日志序号和任期，下次领导者直接通过冲突序号、任期再次同步即可。

为此，我们需要给Reply增加两个字段分别表示冲突任期和序号：

type AppendEntriesReply struct {
+   ConflictTerm  int // 日志冲突任期
+   ConflictIndex int // 日志冲突序号
    Term          int // 当前任期号，以便于候选人去更新自己的任期号
    Success       bool
}

在AppendEntries处理中，如果日志发生了完全冲突，需要遍历日志找到冲突任期、序号：

func (rf *Raft) AppendEntries(args *AppendEntriesArgs, reply *AppendEntriesReply) {
   // 省略
   // 日志、任期冲突直接返回
+   if args.PrevLogIndex >= logSize {
+      reply.ConflictIndex = rf.log.size()
+      reply.ConflictTerm = -1
+      return
+   }
+   if rf.log.entryAt(args.PrevLogIndex).Term != args.PrevLogTerm {
+      reply.ConflictTerm = rf.log.entryAt(args.PrevLogIndex).Term
+      for i := rf.log.first(); i < rf.log.size(); i++ {
+         if rf.log.entryAt(i).Term == reply.ConflictTerm {
+            reply.ConflictIndex = i
+            break
+         }
+      }
+      return
+   }
  // 省略
}

代码第4～6行，如果领导者上一次同步日志序号大于当前节点的日志大小，那么冲突序号就是日志大小，冲突任期为-1。代码9～16行，如果上一次同步序号仍在日志内，但是当前节点在该序号的日志任期与领导者任期不同，那么设置冲突任期为当前节点序号的任期，并遍历日志找到第一个有任期冲突的日志序号，并设置为ConflictIndex。

有了日志冲突任期和序号后，领导者收到同步失败后，就能立马对下一次同步做出调整：

func (rf *Raft) sendAppendEntriesToPeer(peerId int) {
   // 省略
   if reply.Success {
      // 1. 更新 matchIndex 和 nextIndex
      rf.matchIndex[peerId] = prevLogIndex + len(args.Entries)
      rf.nextIndex[peerId] = rf.matchIndex[peerId] + 1
      // 2. 计算更新 commitIndex
      newCommitIndex := getMajorIndex(rf.matchIndex)
-      if newCommitIndex > rf.commitIndex {
+      if newCommitIndex > rf.commitIndex &amp;&amp; rf.log.entryAt(newCommitIndex).Term == rf.currentTerm {
         rf.commitIndex = newCommitIndex
      }
   } else {
+      if reply.ConflictTerm == -1 {
+         rf.nextIndex[peerId] = reply.ConflictIndex
+      } else {
+         // Upon receiving a conflict response, the leader should first search its log for conflictTerm.
+         // If it finds an entry in its log with that term,
+         // it should set nextIndex to be the one beyond the index of the last entry in that term in its log.
+         lastIndexOfTerm := -1
+         for i := rf.log.last(); i >= rf.log.first(); i-- {
+            if rf.log.entryAt(i).Term == reply.ConflictTerm {
+               lastIndexOfTerm = i
+               break
+            }
+         }
+         // If it does not find an entry with that term, it should set nextIndex = conflictIndex.
+         if lastIndexOfTerm < 0 {
+            rf.nextIndex[peerId] = reply.ConflictIndex
+         } else {
+            // 如果找到了冲突的任期，那么 +1 就是下一个需要同步的
+            rf.nextIndex[peerId] = lastIndexOfTerm + 1
+         }
+      }
   }
}

代码14～15行，如果冲突任期为-1，证明日志任期无问题，因此我们只需更新冲突序号。代码20～32行，如果冲突任期不为-1，那么从日志尾部向头部遍历，找到冲突任期所在的最后一个日志序号A，然后判断该序号是否小于0，若小于0，则表示找不到该冲突任期的序号，因此下一次同步序号仍然为冲突序号，否则下一次同步序号为A+1。

另外，你是否发现了代码9～10行也发生了改变，对于commitIndex的更新，我们新增了一个判断条件：新的提交日志序号的任期必须与节点当前任期一致。

为什么要加上这个条件了？在论文Figure 8中有其说明，主要是为了保证领导者只能提交自己任期的日志，不能提交其它任期日志，从而保证原来任期的日志不会被覆盖。具体可参考。

（二）小结

数据持久化是Raft中最简单的一个模块，只需掌握持久化时机，细心一点就能完成。

解决了数据持久化和日志冲突问题后，我们再来引入一个新的问题，日志只能以追加方式进行操作，那么如果某一条数据被修改了很多次，那么日志中存在了该数据的多个版本，如果数据量庞大，那么就会造成很大的空间浪费，相应地，对于日志持久化也会带来很大的性能影响，那么如何解决这个问题呢？答案就是快照。

五、快照

节点是无法容忍日志数据无限增加的。为了解决这个问题，Raft引入了快照机制，例如，一个Raft节点当前日志序号范围是[0,100)，对范围为 [0,50]日志进行快照后，日志范围就变成为[51,100)。如下图：

x，y值有多条日志，但实际上大部分日志都是可被删除的，因此快照机制直接将1～5号日志融合，合并成一个快照块。

快照块的存储方式与日志不同，主要分为三个部分：

lastIncludeIndex，快照块所包含的最后一个日志序号，即图中5。

lastIncludeTerm，快照块所包含的最后一个日志任期，即图中3。

state，状态机数据，由上层应用来处理，Raft节点不做处理。

为什么我们无需保存快照块的第一个日志序号呢？快照只会从头开始，不会从日志切片中间截断，因此只需保存最后一个日志序号。

注意，在快照后，日志切片会发生截断，日志切片序号与日志序号会有不兼容问题，如下：

日志经过快照后，切片序号仍然是1、2、3(0 号作为占位，无实际意义)，但是日志序号却是11、12、13，因此如果再使用日志序号来从日志切片中获取日志，需有一个转换操作，这个操作也很简单：

切片序号=日志序号-lastIncludeIndex。

因此，我们需要重构rLog这个结构体和其方法：

type rLog struct {
   Entries           []LogEntry
+   LastIncludedIndex int
+   LastIncludedTerm  int
}
func defaultRLog() rLog {
   return rLog{
      Entries: []LogEntry{
         {
            Term:    0,
            Command: nil,
         },
      },
+      LastIncludedIndex: 0,
+      LastIncludedTerm:  0,
   }
}
func (l *rLog) entryAt(index int) LogEntry {
+   if index < l.LastIncludedIndex || index > l.LastIncludedIndex+len(l.Entries) {
+      panic(fmt.Sprintf("lastIncludeIndex: %d, but index: %d is invalid", l.LastIncludedIndex, index))
+   }
+   return l.Entries[index-l.LastIncludedIndex]
}
// 最后序号
func (l *rLog) last() int {
   if len(l.Entries) == 0 {
      return 0
   }
+   return len(l.Entries) + l.LastIncludedIndex - 1
}
// 最后任期
func (l *rLog) lastTerm() int {
+   return l.Entries[l.last()-l.LastIncludedIndex].Term
}
// 第一个序号
func (l *rLog) first() int {
+   return l.LastIncludedIndex
}
// 日志长度
func (l *rLog) size() int {
+   return len(l.Entries) + l.LastIncludedIndex
}

rLog新增了LastIncludedIndex和LastIncludedTerm两个字段，分别用于表示当前节点最后一个快照块的lastIncludedIndex、lastIncludedTerm值。另外，在entryAt函数中，读日志需要将日志序号减去LastIncludedIndex值，第一个日志序号应该是LastIncludedIndex值，即first函数，size函数也需要加上LastIncludedIndex后才能得到当前所有日志的总大小。

同时，Raft节点需要新增一个snapshopt字段用来保存快照数据，如下：

type Raft struct {
   // 省略
+   snapshot []byte
}
func Make(peers []*labrpc.ClientEnd, me int,
   persister *Persister, applyCh chan ApplyMsg) *Raft {
   rf := &amp;Raft{}
   // 省略
   rf.readPersist(persister.ReadRaftState())
+   rf.snapshot = persister.ReadSnapshot()
+   rf.commitIndex = rf.log.LastIncludedIndex
+   rf.lastApplied = rf.log.LastIncludedIndex
   // 省略
   return rf
}

Raft在新建时，还需从磁盘中读取持久化的快照数据，且commitIndex、lastApplied的初始值不再是0，而是LastIncludedIndex。现在，我们来解决最后两个问题：何时快照？快照如何执行？

首先第1个问题：何时快照？

上层应用发送快照数据给Raft实例。
领导者发送快照RPC请求给追随者。

对于第1点，前面我们谈到，状态机在上层应用中，因此上层应用知道状态机数据以及日志应用情况，当上层应用觉得日志序号过大(或者其它触发情况)，就会将状态机数据、日志应用号通过Snapshot函数发送给Raft实例，如下：

func (rf *Raft) Snapshot(index int, snapshot []byte) {
   rf.mu.Lock()
   defer rf.mu.Unlock()
   // 拒绝快照过的，也拒绝还未提交的
   if index <= rf.log.LastIncludedIndex || index > rf.commitIndex {
      return
   }
   rf.log.Entries = append([]LogEntry{{Term: 0, Command: nil}}, rf.log.Entries[index-rf.log.LastIncludedIndex+1:]...)
   rf.log.LastIncludedIndex = index
   rf.log.LastIncludedTerm = rf.log.entryAt(index).Term
   rf.snapshot = snapshot
   rf.persistStateAndSnapshot(snapshot)
}

Snapshot函数接受index，snapshot两个参数，snapshot为快照数据，index是快照数据中最后一个日志序号。代码第5行，判断index与 commitIndex、lastIncludeIndex之间的关系，如果index大于commitIndex，证明快照数据中的日志，当前节点还未提交，因此无法快照；如果index小于等于lastIncludeIndex证明上一次快照已经包含了本次快照数据，所以拒绝。

代码8~12行，接受快照数据，并持久化快照，然后更新LastIncludedIndex，LastIncludedTerm，并切截断日志切片，将已快照部分日志从切片中删除。

任何一个节点都可由上层应用通过Snapshot函数调用来执行快照。如果一个新加入集群的追随者，其日志大幅度落后领导者，如果仅靠日志同步请求来，那么是不够快的(还得一个一个日志的应用)，这个时候领导者可以选择将快照发给追随者，追随者直接使用快照就能迅速与其它节点保持数据一致。

因此对于领导者，还有另外一个InstallSnapshot RPC请求，参数与响应定义如下：

type InstallSnapshotArgs struct {
   Term              int
   LeaderId          int
   LastIncludedIndex int
   LastIncludedTerm  int
   Data              []byte
}
type InstallSnapshotReply struct {
   Term int
}

领导者发送RPC时，需携带本次快照请求的快照数据、LastIncludedIndex、LastIncludedTerm以及任期，而追随者只需回复自己的任期即可，因此对于追随者而言即使快照请求失败也不会有其它影响，而任期代表着话语权，这与其它RPC请求一样。与AppendEntries类似，领导者通过sendInstallSnapshot函数发送快照请求，RPC达到时会调用InstallSnapshot函数进行处理：

// peer 接受 leader InstallSnapshot 请求
func (rf *Raft) InstallSnapshot(args *InstallSnapshotArgs, reply *InstallSnapshotReply) {
   rf.mu.Lock()
   defer rf.mu.Unlock()
   reply.Term = rf.currentTerm
   if args.Term < rf.currentTerm {
      return
   }
   // Send the entire snapshot in a single InstallSnapshot RPC.
   // Don't implement Figure 13's offset mechanism for splitting up the snapshot.
   if args.Term > rf.currentTerm {
      rf.becomeFollower(args.Term)
      rf.persist()
   }
   if rf.state != Follower {
      rf.becomeFollower(args.Term)
      rf.persist()
   }
   rf.leaderId = args.LeaderId
   rf.lastReceivedFromLeader = time.Now()
   // 拒绝，如果你的小，证明我已经快照过了，无需再次快照
   if args.LastIncludedIndex <= rf.log.LastIncludedIndex {
      return
   }
   msg := ApplyMsg{
      SnapshotValid: true,
      Snapshot:      args.Data,
      SnapshotTerm:  args.LastIncludedTerm,
      SnapshotIndex: args.LastIncludedIndex,
   }
   go func() {
      // 应用快照 msg
      rf.applyCh <- msg
   }()
}
// 发送 InstallSnapshot
func (rf *Raft) sendInstallSnapshot(server int, args *InstallSnapshotArgs, reply *InstallSnapshotReply) bool {
   ok := rf.peers[server].Call("Raft.InstallSnapshot", args, reply)
   return ok
}

代码3～20行，与AppendEntries几乎一致，判断任期是否需要成为追随者，刷新leaderId和接收时间。代码第22行，判断当前快照的LastIncludedIndex与当前节点的LastIncludedIndex之间的大小，如果小于等于，证明快照数据已经存在，直接拒绝即可。

代码25～34行，将快照数据封装到ApplyMsg中，并通过ApplyCh发送给上层应用。

和日志应用一样，快照应用也是通过发送ApplyMsg，ApplyMsg结构体中增加了快照相关的字段：

type ApplyMsg struct {
   CommandValid bool
   Command      interface{}
   CommandIndex int
   // 2D
+   SnapshotValid bool
+   Snapshot      []byte
+   SnapshotTerm  int
+   SnapshotIndex int
}

当CommandValid为true时，应用的是日志，SnapshotValid为true时，应用的是快照。领导者得到快照响应后做如下处理：

// sendInstallSnapshotToPeer 向其它 peer 发送快照请求
func (rf *Raft) sendInstallSnapshotToPeer(peerId int) {
   rf.mu.Lock()
   args := InstallSnapshotArgs{
      Term:              rf.currentTerm,
      LeaderId:          rf.me,
      LastIncludedIndex: rf.log.LastIncludedIndex,
      LastIncludedTerm:  rf.log.LastIncludedTerm,
      Data:              rf.snapshot,
   }
   reply := InstallSnapshotReply{}
   rf.mu.Unlock()
   ok := rf.sendInstallSnapshot(peerId, &amp;args, &amp;reply)
   if !ok {
      return
   }
   rf.mu.Lock()
   defer rf.mu.Unlock()
   // 如果当前的状态不为 leader，那么将不能接受
   if rf.state != Leader || args.Term != rf.currentTerm {
      return
   }
   if reply.Term > rf.currentTerm {
      rf.becomeFollower(reply.Term)
      // 你的任期大，我成为你的追随者
      rf.leaderId = peerId
      rf.persist()
      return
   }
   // 注意，快照和日志同步一样，需要更新 matchIndex 和 nextIndex
   // 发送完快照后，更新了 matchIndex 和 nextIndex，因此在快照期间的日志同步将需要重新来
   rf.matchIndex[peerId] = args.LastIncludedIndex
   rf.nextIndex[peerId] = args.LastIncludedIndex + 1
}

代码20~29行，与AppendEntries一致，判断任期与状态。代码32～33行，快照后更新matchIndex、nextIndex。

领导者在发现某个节点同步日志序号落后LastIncludedIndex的情况下就会决定发送快照，如下：

func (rf *Raft) ping() {
   for rf.killed() == false {
      // 省略
      for peerId, _ := range rf.peers {
         // 省略
         // 当 leader 发现一个 follower 的 nextIndex[follower] - 1, 即 prevLogIndex
         // 小于 leader 节点的快照时刻时，就会通过 RPC 调用发快照过去
+         prevLogIndex := rf.nextIndex[peerId] - 1
+         if prevLogIndex < rf.log.LastIncludedIndex {
+            go rf.sendInstallSnapshotToPeer(peerId)
+         } else {
+            go rf.sendAppendEntriesToPeer(peerId)
+         }
      }
      // 省略
   }
}

第2个问题，快照如何执行？

上层应用通过Snapshot函数来执行快照；

上层应用通过CondInstallSnapshot函数来执行快照。

你应该也发现了，追随者收到快照请求后，并没有立即更新snapshot、log等数据，而是将其包装为了ApplyMsg发送给了上层应用。

那是因为如果Raft实例单独应用了快照，而上层应用不知道，那么就会造成二者的数据不统一。收到ApplyMsg后，上层应用会调用CondInstallSnapshot函数来真正的应用快照，如下：

func (rf *Raft) CondInstallSnapshot(lastIncludedTerm int, lastIncludedIndex int, snapshot []byte) bool {
   rf.mu.Lock()
   defer rf.mu.Unlock()
   // 已快照过了，拒绝
   if lastIncludedIndex <= rf.commitIndex {
      return false
   }
   // 快照后的处理工作
   defer func() {
      rf.log.LastIncludedIndex = lastIncludedIndex
      rf.log.LastIncludedTerm = lastIncludedTerm
      rf.snapshot = snapshot
      rf.commitIndex = lastIncludedIndex
      rf.lastApplied = lastIncludedIndex
      rf.persistStateAndSnapshot(snapshot) // 持久化快照
   }()
   // 删除掉 lastIncludedIndex 之前的日志记录
   if lastIncludedIndex <= rf.log.last() &amp;&amp; rf.log.entryAt(lastIncludedIndex).Term == lastIncludedTerm {
      // [rf.log.LastIncludedIndex, lastIncludedIndex) 是当前 snapshot 中的日志数据，所以应该删除
      // 前面需要一个占位
      rf.log.Entries = append([]LogEntry{{Term以上是关于超详细教程！手把手带你使用Raft分布式共识性算法的主要内容，如果未能解决你的问题，请参考以下文章