solrcloud没有集群leader的问题

Posted 程序源

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了solrcloud没有集群leader的问题相关的知识,希望对你有一定的参考价值。

来源:将将将开源中国博客

https://my.oschina.net/u/172871/blog


摘要: solrcloud没有集群leader(zk上无 /overseer_elect/leader node),即集群leader选举失败。


1、问题描述

第一步:在拥有3个节点的集群中,创建一个2个片,每个片2个replication的collection

    solrcloud没有集群leader的问题

这时候,集群的leader为32机器(32机器的id值最小)


第二步:在该collection上做dataimport,每秒1万条记录的导入速度(commit)。


第三步:restart 32机器

问题现象:发现集群没有leader,zk上无 /overseer_elect/leader node

    solrcloud没有集群leader的问题solrcloud没有集群leader的问题

集群出现异常,无法写入数据,虽然collection显示正常


2、问题分析

按照solrcloud集群选举理论,在32机器重启后,32机器的id值变成最大,而30机器的id此时是最小值,那么30机器成为集群leader

solrcloud没有集群leader的问题

此时30机器,没有成为leader

通过查看30机器的日志及solrcloud选举的源码

源码中,有个选举类LeaderElector,里面有个checkIfIamLeader方法,此方法就是“试图选举自己成为leader”

solrcloud没有集群leader的问题

该方法是先判断实际是否可以成为leader,如果可以,先删除原有的leader node,然后创建自己成为leader的node

solrcloud没有集群leader的问题


solrcloud没有集群leader的问题solrcloud没有集群leader的问题

通过查看30的info日志发现,只执行了delete 原有leader node的操作,而没有创建“自己成为leader”的操作

solrcloud没有集群leader的问题

solrcloud没有集群leader的问题

3、解决办法

重启编号最小的那台机器,触发集群重选leader。


丨往期精选丨


请添加小编微信2518988391(备注岗位)

以上是关于solrcloud没有集群leader的问题的主要内容,如果未能解决你的问题,请参考以下文章

13.SolrCloud架构图

solrcloud Recovery原理及无法选举分片leader

linux集群下 solr集群搭建

Solrcloud(Solr集群)

solr 主从模式和solrcloud集群模式

SolrCloud怎样创建跟新索引信息