MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

Posted 2021-05-03 分享录

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细相关的知识，希望对你有一定的参考价值。

一、MHA概述

HHA可以实现单点故障切换和主从复制[0到30秒内自动完成故障切换]当主服务器挂掉后备用的就会顶替，为抢救主服务器争取时间
故障自动切换的过程中，MHA会试图从宕机的Master上保存二进制日志最大程度的保证数据不丢失，并采用半同步复制，可以大大降低数据丢失的风险，如果只有一个slave已经收到了最新的二进制日志，MHA就可以将最新的二进制日志应用于其他所有的slave服务器上，因此也可以保证所有节点的数据一致性

二、MHA的组成

MHA Node数据节点
运行在每台mysql服务器上
MHA Manager管理节点
可以单独部署在一台独立的机器上或一台slave节点上并管理多个master-slave集群
它会不定期对集群中的master节点巡检，当发现master出现故障，可以自动将最小数据的
slave提升为新的master，然后将所有其他的slave重写指向新的master

三、故障场景

虽然做了主从负载均衡但是无法实现高可用

四、开始部署

主机名	主机	操作系统	IP 地址	主要软件
CentOS 7-5	MHAmanager	CentOS 7	192.168.0.50	MHAnode组件、MHAmanager组件
CentOS 7-1	MySQL1	CentOS 7	192.168.0.10	mysql-server、MHAnode组件
CentOS 7-2	MySQL2	CentOS 7	192.168.0.20	mysql-server、MHAnode组件
CengOS 7-3	MySQL3	CentOS 7	192.168.0.30	mysql-server、MHAnode组件

1.修改配置文件

修改三台MySQL的主配置文件
Master主机

vim /etc/my.cnf
[mysqld]server-id = 10log_bin = master-binlog-slave-updates = true
systemctl restart mysqld
ln -s /usr/local/mysql/bin/mysql /usr/sbin/ln -s /usr/local/mysql/bin/mysqlbinlog /usr/sbin/#创建 mysql 命令与 mysql 日志文件的软链接，便于系统识别

Slave主机

server-id = 20#server-id = 30 Slave2log_bin = master-binrelay-log = relay-log-binrelay-log-index = slave-relay-bin.index
systemctl restart mysqld
ln -s /usr/local/mysql/bin/mysql /usr/sbin/ln -s /usr/local/mysql/bin/mysqlbinlog /usr/sbin/

2.配置一主两从

对所有的MySQL服务器进行授权

mysql -uroot -p
#允许192.168.0的网段都可以进行从服务器的复制操作grant replication slave on *.* to 'myslave'@'192.168.0.%' identified by '123456';#允许用户fox对192.168.0网段内所有数据库执行任何操作grant all privileges on *.* to 'fox'@'192.168.0.%' identified by '123456';
grant all privileges on *.* to 'fox'@'mysql1' identified by '123456';grant all privileges on *.* to 'fox'@'mysql2' identified by '123456';grant all privileges on *.* to 'fox'@'mysql3' identified by '123456';
flush privileges;

2.1 查看主服务器状态

#二进制和偏移量一定要记住show master status;

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

3.配置Slave主服务器信息

change master to master_host='192.168.0.10',master_user='myslave',master_password='123456',master_log_file='master-bin.000001',master_log_pos=1743;
start slave;
show slave status\G

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

3.1 测试主从复制

Master

create database bbs;

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细
Slaves

show databses;

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

4.安装MHA

所有服务器都安装MHA和EPEL

yum install epel-release --nogpgcheck -y
yum install -y perl-DBD-MySQL \perl-Config-Tiny \perl-Log-Dispatch \perl-Parallel-ForkManager \perl-ExtUtils-CBuilder \perl-ExtUtils-MakeMaker \perl-CPAN

所有服务器都安装node组件
Node和Manager下载[https://pan.baidu.com/share/init?surl=8Sq7qS-lH0cVn91X2LBlPA，提取码：qwer]

cd /opt
tar zxvf mha4mysql-node-0.57.tar.gzcd mha4mysql-node-0.57perl Makefile.PL
make && make install

在 MHA manager 节点上安装 manager 组件

tar zxvf mha4mysql-manager-0.57.tar.gzcd mha4mysql-manager-0.57perl Makefile.PL
make && make install

manager 组件安装后会在 /usr/local/bin 下面会生成以下几个工具

masterha_check_ssh	检查 MHA 的 SSH 配置状况
masterha_check_repl	检查 MySQL 复制状况
masterha_manger 启动	manager的脚本
masterha_check_status	检测当前 MHA 运行状态
masterha_master_monitor	检测 master 是否宕机
masterha_master_switch	控制故障转移（自动或者手动）
masterha_conf_host	添加或删除配置的 server 信息
masterha_stop	关闭manager

node 组件安装后也会在/usr/local/bin 下面会生成几个脚本（这些工具通常由 MHAManager 的脚本触发，无需人为操作）

save_binary_logs	保存和复制 master 的二进制日志
apply_diff_relay_logs	识别差异的中继日志事件并将其差异的事件应用于其他的 slave
filter_mysqlbinlog	去除不必要的 ROLLBACK 事件（MHA 已不再使用这个工具）
purge_relay_logs	清除中继日志（不会阻塞 SQL 线程）

5.配置无密码认证

在 manager 节点上配置到所有数据库节点的无密码认证

ssh-keygen -t rsa#为当前用户创建密钥对，“-t”指定加密算法“rsa”
ssh-copy-id 192.168.0.10ssh-copy-id 192.168.0.20ssh-copy-id 192.168.0.30#将公钥导入所有 MySQL 服务器，后续输入 yes 及 MySQL 数据库登录密码122

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

在 mysql1 上配置到数据库节点 mysql2 和 mysql3 的无密码认证

ssh-keygen -t rsassh-copy-id 192.168.0.20ssh-copy-id 192.168.0.30

在 mysql2 上配置到数据库节点 mysql1 和 mysql3 的无密码认证

ssh-keygen -t rsassh-copy-id 192.168.0.10ssh-copy-id 192.168.0.30

在 mysql3 上配置到数据库节点 mysql1 和 mysql2 的无密码认证

ssh-keygen -t rsassh-copy-id 192.168.0.10ssh-copy-id 192.168.0.20

6.配置 MHA

在 manager 节点上复制相关脚本到 /usr/local/bin 目录

cp -rp /opt/mha4mysql-manager-0.57/samples/scripts /usr/local/bin
#复制后会有四个执行文件ll /usr/local/bin/scripts/

master_ip_failover	自动切换时 VIP 管理的脚本
master_ip_online_change	在线切换时 vip 的管理
power_manager	故障发生后关闭主机的脚本
send_report	因故障切换后发送报警的脚本

复制master_ip_failover到/usr/local/bin目录

cp /usr/local/bin/scripts/master_ip_failover /usr/local/bin

删除原文件内容将故障转移复制进去

vim /usr/local/bin/master_ip_failover
#!/usr/bin/env perluse strict;use warnings FATAL => 'all';
use Getopt::Long;
my ($command, $ssh_user, $orig_master_host, $orig_master_ip,$orig_master_port, $new_master_host, $new_master_ip, $new_master_port);#############################添加内容部分#########################################my $vip = '192.168.0.100'; #指定虚拟IP的地址my $brdc = '192.168.0.255'; #指定虚拟IP的广播地址my $ifdev = 'ens33'; #指定虚拟IP绑定的网卡my $key = '1'; #指定虚拟IP绑定的虚拟网卡序列号my $ssh_start_vip = "/sbin/ifconfig ens33:$key $vip"; #代表此变量值为ifconfig ens33:1 192.168.126.200my $ssh_stop_vip = "/sbin/ifconfig ens33:$key down"; #代表此变量值为ifconfig ens33:1 192.168.126.200 downmy $exit_code = 0; #指定退出状态码为0#my $ssh_start_vip = "/usr/sbin/ip addr add $vip/24 brd $brdc dev $ifdev label $ifdev:$key;/usr/sbin/arping -q -A -c 1 -I $ifdev $vip;iptables -F;";#my $ssh_stop_vip = "/usr/sbin/ip addr del $vip/24 dev $ifdev label $ifdev:$key";##################################################################################GetOptions('command=s' => \$command,'ssh_user=s' => \$ssh_user,'orig_master_host=s' => \$orig_master_host,'orig_master_ip=s' => \$orig_master_ip,'orig_master_port=i' => \$orig_master_port,'new_master_host=s' => \$new_master_host,'new_master_ip=s' => \$new_master_ip,'new_master_port=i' => \$new_master_port,);
exit &main();
sub main {
print "\n\nIN SCRIPT TEST====$ssh_stop_vip==$ssh_start_vip===\n\n";
if ( $command eq "stop" || $command eq "stopssh" ) {
my $exit_code = 1;eval {print "Disabling the VIP on old master: $orig_master_host \n";&stop_vip();$exit_code = 0;};if ($@) {warn "Got Error: $@\n";exit $exit_code;}exit $exit_code;}elsif ( $command eq "start" ) {
my $exit_code = 10;eval {print "Enabling the VIP - $vip on the new master - $new_master_host \n";&start_vip();$exit_code = 0;};if ($@) {warn $@;exit $exit_code;}exit $exit_code;}elsif ( $command eq "status" ) {print "Checking the Status of the script.. OK \n";exit 0;}else {&usage();exit 1;}}sub start_vip() {`ssh $ssh_user\@$new_master_host \" $ssh_start_vip \"`;}## A simple system call that disable the VIP on the old_mastersub stop_vip() {`ssh $ssh_user\@$orig_master_host \" $ssh_stop_vip \"`;}
sub usage {print"Usage: master_ip_failover --command=start|stop|stopssh|status --orig_master_host=host --orig_master_ip=ip --orig_master_port=port --new_master_host=host --new_master_ip=ip --new_master_port=port\n";}

创建MHA软件目录并拷贝配置文件

mkdir /etc/masterhacp /opt/mha4mysql-manager-0.57/samples/conf/app1.cnf /etc/masterha
vim /etc/masterha/app1.cnf
#manager工作目录manager_log=/var/log/masterha/app1/manager.log
#manager日志manager_workdir=/var/log/masterha/app1
#master保存binlog的位置，这里的路径要于master里配置的binlog（相同？）master_binlog_dir=/usr/local/mysql/data
#设置自动failover时候切换脚本，也就是上一个配置的脚本master_ip_failover_script=/usr/local/bin/master_ip_failover
#设置手动切换时候的切换脚本master_ip_online_change_script=/usr/local/bin/master_ip_online_change
#此处密码为之前创建监控用户的密码password=123456
#设置监控用户user=fox
#设置监控主库，发送ping包的事件间隔，默认为3秒，尝试三次没有回应的时候自动进性failoverping_interval=1
#设置远端的MySQL在发生切换时binlog的（临时）保存位置remote_workdir=/tmp
#设置复制（slaves）用户的密码repl_password=123456
#设置复制用户的账户repl_user=myslave
#设置发生切换后发送的报警的脚本report_script=/usr/local/send_report
#设置检查从服务器的脚本secondary_check_script=/usr/local/bin/masterha_secondary_check -s 192.168.0.20 -s 192.168.0.30
#设置故障发生后关闭故障主机脚本shutdown_script=""
#设置ssh的登录用户名ssh_user=root
[server2]#设置候选master，如果设置了此参数，发生主从切换后，会将此库提升为主库candidate_master=1#支持复制的检查，默认情况下如果一个slave落后master 100M的relay logs（中继日志）的话，MHA将不会选择该slave作为新的master，设置为0的话会忽略此规则check_repl_delay=0
hostname=192.168.0.20port=3306

测试无密码认证，如果正常会输出successfully

masterha_check_ssh -conf=/etc/masterha/app1.cnf

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细测试主从复制

masterha_check_repl -conf=/etc/masterha/app1.cnf

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

7.启动MHA

nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/masterha/app1/manager.log 2>&1 &

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

8.测试

8.1 查看当前Master节点是谁

masterha_check_status --conf=/etc/masterha/app1.cnf

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

8.2 manager服务器上启用监控观察日志

tailf /var/log/masterha/app1/manager.log

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

8.3 客户机通过虚拟IP登录数据库

mysql -ufox -p -h 192.168.0.100

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

8.4 模拟故障查看Master变化

在Master杀死MySQL

pkill -9 mysql

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

再次查看 manager 节点监控观察日志记录，可以看到，master 已宕机，该 master 节点失效，选择了 Slave1 作为新的 master 节点

tailf /var/log/masterha/app1/manager.log

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

故障切换备选主库的算法

一般判断从库是从（position/GTID)判断优劣，数据有差异，最接近于master的slave，称为备选主
数据一致的情况下，按照配置文件顺序选择备选主库
设定有权重（candidate_master=1)，按照权重强制指定备选主

默认情况下，如果一个slave落后master 100M的relay logs(中继日志）的话，即使有权重，也会失效
如果check_repl_delay=0的话，即使落后很多日志，也强制选择其为备选主

9. 故障修复步骤

9.1 修复MySQL

systemctl restart mysqld

9.2 修复主从

在现Master的Slave1上查看二进制日志和同步点

show master status;

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细

在原Master上进行同样操作

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细在原Master上执行同步操作

change master to master_host='192.168.0.20',master_user='myslave',master_password='123456',master_log_file='master-bin.000001',master_log_pos=1743;
start slave;
show slave status\G

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细
在 manager 节点上修改配置文件app1.cnf

启动MHA

nohup masterha_manager --conf=/etc/masterha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null > /var/log/masterha/app1/manager.log 2>&1 &

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细
在Master创建一个数据库进行测试

create database test;

MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细
在原Master中查看

------------END-----------

更多原创文章请扫描上面（微信内长按可识别）二维码访问我的个人网站(https://www.xubingtao.cn)，或者打开我的微信小程序：可以评论以及在线客服反馈问题，其他平台小程序和APP请访问：https://www.xubingtao.cn/?p=1675。祝大家生活愉快！

以上是关于MySQL 运维 - MHA高可用集群部署 | 故障切换 | 超详细的主要内容，如果未能解决你的问题，请参考以下文章

MHA高可用集群部署

MHA高可用集群部署及故障切换

MySQL MHA高可用集群部署及故障切换

MySQL之 MHA 高可用集群部署