PM2 cluster 模式一直启动报错

Posted 2023-04-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了PM2 cluster 模式一直启动报错相关的知识，希望对你有一定的参考价值。

参考技术A 问题背景：p2m cluster 模式启动程序，一直失败，status状态为error

解决：

Redis 运维 - 主从复制 | 哨兵模式 | Cluster集群 | 报错排查 | 负载均衡及高可用方案

Redis 运维 - 负载均衡及高可用方案

一、主从复制
二、哨兵模式
三、Cluster集群

一、主从复制

主节点将数据单向复制到从节点中

在复制过程中，主节点和从节点都处于非阻塞状态

1.1 作用

数据冗余
实现数据热备
故障恢复
当主节点发生故障时，可以由从节点提供服务
负载均衡
在主从复制的基础上，配合读写分离，使主节点负责写操作，从节点负责读操作，这样可以大大提高并发量

一个主节点可对于多个从节点，一个从节点只能对一个主节点

1.2 主从复制的流程

当从节点启动时会向主节点发送"sync command"命令请求同步连接
无论使第一次连接还是再次连接，主节点都会启动一个后台进程将快照和修改数据的所有记录一并缓存在数据文件中
后台进程完成缓存操作之后，从节点会接收主节点发来的数据文件并存储到硬盘中，然后将其加载到内存中，接着会收到主节点修改数据的所有操作
若从节点出现意外宕机，则将在恢复正常后自动重写连接

1.3 搭建Redis主从复制

节点名	IP地址
master	192.168.0.10
slave1	192.168.0.20
slave2	192.168.0.30

1.3.1 安装Redis

三台服务器都需要安装

#按需求关闭安全策略
systemctl stop firewalld
systemctl disable firewalld
setenforce 0

yum -y install gcc gcc-c++ make

cd /opt
wget -P /opt http://download.redis.io/releases/redis-5.0.9.tar.gz
tar -zxvf redis-5.0.9.tar.gz

cd redis-5.0.9
make && make PREFIX=/usr/local/redis install 
#Redis源码包中直接提供了makefile文件 直接执行make与make install命令进行安装

cd /opt/redis-5.0.9/utils/
./install_server.sh   

#回车，直到出现以下选项，手动修改为“/usr/local/redis/bin/redis-server”
Please select the redis executable path [/usr/local/bin/redis-server] /usr/local/redis/bin/redis-server

ln -s /usr/local/redis/bin/* /usr/local/bin/

#检查服务状态
ss -natp | grep "redis"

1.3.2 修改Redis配置文件

Master节点

vim /etc/redis/6379.conf

bind 0.0.0.0                        
#70行，修改监听地址为 0.0.0.0
daemonize yes                       
#137行，开启守护进程
logfile /var/1og/redis_6379.1og    
#172行，指定日志文件目录
dir /var/lib/redis/6379             
#264行，指定工作目录
appendonly yes                      
#700行，开启 AOF 持久化功能

/etc/init.d/redis_6379 restart
#重启服务使配置生效

Slave1/2节点

vim /etc/redis/6379. conf

bind 0.0.0.0                        
#70行，修改监听地址为 0.0.0.0
daemonize yes                       
#137行，开启守护进程
logfile /var/log/redis_6379.log   
#172行，指定日志文件目录
dir /var/lib/redis/6379             
#264行，指定工作目录
replicaof 192.168.126.11 6379       
#288行，指定要同步的 Master 节点 IP 和端口
appendonly yes                      
#700行，开启 AOF 持久化功能


/etc/init.d/redis_6379 restart
#重启服务使配置生效

1.3.4 验证主从效果

主节点输入

tail -f /var/log/redis_6379.log

redis-cli info replication

1.3.5 报错排查

WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128

当前每一个端口最大的监听队列的长度不满足这个高负载环境，需要调整

解决办法

echo 2048 > /proc/sys/net/core/somaxconn

WARNING overcommit_memory is set to 0! Background save may fail under low memory condition

内存超额警告，当前内存设置为0会导致后台保存失败

解决办法

echo "vm.overcommit_memory=1" > /etc/sysctl.conf
#刷新配置文件保其生效
sysctl vm.overcommit_memory=1

WARNING you have Transparent Huge Pages (THP) support enabled in your kernel. This will create latency and memory usage issues with Redis

内核中启用了透明大页面（THP）支持会将导致Redis的延迟和内存使用问题

解决办法

echo never > /sys/kernel/mm/transparent_hugepage/enabled

Error condition on socket for SYNC: Connection reset by peer

连接被拒绝，因为主服务器可能绑定了自身IP地址

解决办法
主节点配置文件

bind 0.0.0.0

二、哨兵模式

在主从复制的基础上起到主节点自动故障转移的作用

2.1 作用及原理

2.1.1 哨兵模式的作用

监控
哨兵会不断地检查主节点和从节点是否运作正常
自动故障转移
当主节点不能正常工作时，哨兵会开始自动故障转移操作，它会将失效主节点的其中一个从节点升级为新的主节点，并让其他从节点改为复制新的主节点
通知
哨兵可以将故障转移的结果发送给客户端

2.1.2 哨兵模式的原理

它一个分布式系统，用于对主从结构中的每台服务器进行监控，当出现故障时通过投票机制选择新的 Master 并将所有 slave 连接到新的 Master

整个运行哨兵的集群的数量不得少于 3 个节点

2.2 结构

哨兵结构由两部分组成，哨兵节点和数据节点：

哨兵节点
哨兵系统由一个或多个哨兵节点组成，哨兵节点是特殊的 redis 节点，不存储数据
数据节点
主节点和从节点都是数据节点

2.3 工作过程

哨兵的启动依赖于主从模式，所以须把主从模式安装好的情况下再去做哨兵模式，所以节点上都需要部署哨兵模式，哨兵模式会监控所有的 Redis 工作节点是否正常

当 Master 出现问题的时候，因为其他节点与主节点失去联系，因此会投票，投票过半就认为这个 Master 的确出现问题，然后会通知哨兵间会推选出一个哨兵来进行故障转移工作（由该哨兵来指定哪个 slave 来做新的 master），然后从 Slaves 中选取一个作为新的 Master

筛选方式是哨兵互相发送消息，并且参与投票，票多者当选
需要特别注意的是，客观下线是主节点才有的概念，即如果从节点和哨兵节点发生故障，被哨兵主观下线后，将不会再有后续的客观下线和故障转移操作（及哨兵模式只负责 Master 的方面，而不管 Slaves）

当某个哨兵发现主服务器挂掉了，会将 master 中的 SentinelRedistance 中的 master
改为SRI_S_DOWN（主观下线），并通知其他哨兵，告诉他们发现 master 挂掉了
其他哨兵在接收到该哨兵发送的信息后，也会尝试去连接 master，如果超过半数（配置文件中设置的）确认 master 挂掉后，会将
master 中的 SentinelRedistance 中的 master 改为 SRI_O_DOWN（客观下线）

2.4 搭建哨兵模式

节点名	IP地址
master	192.168.0.10
slave1	192.168.0.20
slave2	192.168.0.30

2.4.1 修改哨兵配置文件[所有节点皆需]

vim /opt/redis-5.0.9/sentinel.conf

protected-mode no		
#17行，关闭保护模式
port 26379			
#21行，Redis哨 兵默认的监听端口
daemonize yes		

logfile "/var/log/sentinel.log"		
#36行，指定日志存放路径
dir "/var/lib/redis/6379"		
#65行，指定数据库存放路径
sentinel monitor mymaster 192.168.238.10 6379 2 	
#84行，指定哨兵节点
#2表示，至少需要 2 个哨兵节点同意，才能判定主节点故障并进行故障转移
sentinel down-after-milliseconds mymaster 3000 		
#113行，判定服务器down掉的时间周期，默认30000毫秒 (30秒 )
sentinel failover-timeout mymaster 180000		
#146行，故障节点的最大超时时间为180000 (180秒)

2.4.2 启动哨兵模式

先启动主节点在启动从节点

cd /opt/redis-5.0.9/
redis-sentinel sentinel.conf &

2.4.3 查看哨兵信息

redis-cli -p 26379 info Sentinel

2.4.4 模拟故障

ps -ef | grep "redis"
#查看 redis-server 的进程号

kill -9 [进程号]
#杀死 Master 节点上的 redis-server 的进程号

2.4.5 验证结果

tail /var/log/sentinel.log

redis-cli -p 26379 info Sentinel

三、Cluster集群

主节点负责读写请求和集群信息的维护，从节点只进行主节点数据和状态信息的复制

3.1 作用

3.1.1 数据分区

数据分区（或称数据分片）是集群最核心的功能
集群将数据分散到多个节点，一方面突破了 Redis 单机内存大小的限制，存储容量大大增加，另一方面每个主节点都可以对外提供读服务和写服务，大大提高了集群的响应能力
Redis 单机内存大小受限问题，在介绍持久化和主从复制时都有提及
例如，如果单机内存太大，bgsave 和 bgrewriteaof 的 fork 操作可能导致主进程阻塞，主从环境下主机切换时可能导致从节点长时间无法提供服务，全量复制阶段主节点的复制缓冲区可能溢出

3.1.2 高可用

集群支持主从复制和主节点的自动故障转移（与哨兵类似），当任意节点发送故障时，集群仍然可以对外提供服务

3.1.3 数据分片

Redis 集群引入了哈希槽的概念，有 16384 个哈希槽（编号 0~16383）
集群的每个节点负责一部分哈希槽，每个 Key 通过 CRC16 校验后对 16384 取余来决定放置哪个哈希槽，通过这个值，去找到对应的插槽所对应的节点，然后直接自动跳转到这个对应的节点上进行存取操作
以 3 个节点组成的集群为例：
节点 A 包含 0~5469 号的哈希槽
节点 B 包含 5461~10922 号的哈希槽
节点 C 包含 10923~16383 号的哈希槽

3.2 搭建Cluster集群

节点名	IP地址	端口号
模拟三台master模拟三台slave	192.168.0.10	6001/6002/6003/6004/6005/6006

cd /etc/redis/
mkdir -p redis-cluster/redis600{1..6)

for i in {1..6}
do
cp /opt/redis-5.0.9/redis.conf /etc/redis/redis-cluster/redis600$i
cp /opt/redis-5.0.9/src/redis-cli /opt/redis-5.0.9/src/redis-server /etc/redis/redis-cluster/redis600$i
done

ls -R

3.3 开启群集功能

其他五个文件夹的配置文件以此类推修改，注意六个端口都不一样

cd /etc/redis/redis-cluster/redis6001

vim redis.conf
#bind 127.0.0.1                             
#69行，注释掉 bind 项，默认监听所有网卡
protected-mode no                           
#88行，修改，关闭保护模式
port 6001                                   
#92行，修改，redis 监听端口，
daemonize yes                               
#136行，开启守护进程，以独立进程启动
appendonly yes                              
#699行，修改，开启 AOF 持久化
cluster-enabled yes                         
#832行，取消注释，开启群集功能
cluster-config-file nodes-6001.conf         
#840行，取消注释，群集名称文件设置
cluster-node-t imeout 15000                 
#846行，取消注释群集超时时间设置

3.4 启动 redis 节点

分别进入那六个文件夹，执行命令"redis-server redis.conf"来启动 redis 节点

cd /etc/redis/redis-cluster/redis6001
redis-server redis.conf

for i in {1..6}
do
cd /etc/redis/redis-cluster/redis600$i
redis-server redis.conf
done

ps -ef | grep "redis"

3.5 测试集群

redis-cli --cluster create 127.0.0.1:6001 127.0.0.1:6002 127.0.0.1:6003 127.0.0.1:6004 127.0.0.1:6005 127.0.0.1:6006 --cluster-replicas 1

#六个实例分为三组，每组一主一从，前面的做主节点，后面的做从节点
#下面交互的时候需要输入 yes 才可以创建
#-replicas 1 表示每个主节点有一个从节点

redis-cli -p 6001 -c
#加 -c 参数，节点之间就可以互相跳转

127.0.0.1:6001> cluster slots
#查看节点的哈希槽编号范围

以上是关于PM2 cluster 模式一直启动报错的主要内容，如果未能解决你的问题，请参考以下文章

做UI自动化一直启动不成功Chrome 报错：请停用以开发者模式......

kibana启动报错 Elasticsearch cluster did not respond with license information

使用pm2命令报错“-bash: pm2: command not found“

redis集群报错：(error) CLUSTERDOWN The cluster is down

mysql正常启动后一直报错直到mysql死掉

PM2入门及其常用命令