MySQL如何实现万亿级数据存储?
Posted 明斯克开源
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MySQL如何实现万亿级数据存储?相关的知识,希望对你有一定的参考价值。
可以看到,我们在Mycat的schema.xml文件中配置的dataHost节点的信息,成功写入到Zookeeper中了。
为了验证Mycat的配置信息,是否已经同步到Zookeeper的其他节点上,我们也可以在binghe152和binghe153服务器上登录Zookeeper,查看Mycat配置信息是否写入成功。
- binghe152服务器
[root@binghe152 ~]# zkCli.sh
Connecting to localhost:2181
#################省略N行输出信息################
[zk: localhost:2181(CONNECTED) 0] get /mycat/mycat-cluster-1/schema/dataHost
[“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe151”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe51”,“url”:“192.168.175.151:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe152”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe52”,“url”:“192.168.175.152:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe153”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe53”,“url”:“192.168.175.153:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe154”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe54”,“url”:“192.168.175.154:3306”,“password”:“root”,“user”:“root”]]
可以看到,Mycat的配置信息成功同步到了binghe152服务器上的Zookeeper中。
- binghe153服务器
[root@binghe153 ~]# zkCli.sh
Connecting to localhost:2181
#####################此处省略N行输出信息#####################
[zk: localhost:2181(CONNECTED) 0] get /mycat/mycat-cluster-1/schema/dataHost
[“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe151”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe51”,“url”:“192.168.175.151:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe152”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe52”,“url”:“192.168.175.152:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe153”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe53”,“url”:“192.168.175.153:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe154”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe54”,“url”:“192.168.175.154:3306”,“password”:“root”,“user”:“root”]]
可以看到,Mycat的配置信息成功同步到了binghe153服务器上的Zookeeper中。
[](()配置Mycat支持Zookeeper启动
1.在binghe151服务器上配置Mycat
在binghe151服务器上进入Mycat安装目录的conf目录下,查看文件信息,如下所示。
[root@binghe151 ~]# cd /usr/local/mycat/conf/
[root@binghe151 conf]# ll
total 108
-rwxrwxrwx 1 root root 92 Feb 26 17:10 autopartition-long.txt
-rwxrwxrwx 1 root root 51 Feb 26 17:10 auto-sharding-long.txt
-rwxrwxrwx 1 root root 67 Feb 26 17:10 auto-sharding-rang-mod.txt
-rwxrwxrwx 1 root root 340 Feb 26 17:10 cacheservice.properties
-rwxrwxrwx 1 root root 3338 Feb 26 17:10 dbseq.sql
-rwxrwxrwx 1 root root 3532 Feb 26 17:10 dbseq - utf8mb4.sql
-rw-r–r-- 1 root root 86 Mar 1 22:37 dnindex.properties
-rwxrwxrwx 1 root root 446 Feb 26 17:10 ehcache.xml
-rwxrwxrwx 1 root root 2454 Feb 26 17:10 index_to_charset.properties
-rwxrwxrwx 1 root root 1285 Feb 26 17:10 log4j2.xml
-rwxrwxrwx 1 root root 183 Feb 26 17:10 migrateTables.properties
-rwxrwxrwx 1 root root 271 Feb 26 17:10 myid.properties
-rwxrwxrwx 1 root root 16 Feb 26 17:10 partition-hash-int.txt
-rwxrwxrwx 1 root root 108 Feb 26 17:10 partition-range-mod.txt
-rwxrwxrwx 1 root root 988 Mar 1 16:59 rule.xml
-rwxrwxrwx 1 root root 3883 Mar 3 23:59 schema.xml
-rwxrwxrwx 1 root root 440 Feb 26 17:10 sequence_conf.properties
-rwxrwxrwx 1 root root 84 Mar 3 23:52 sequence_db_conf.properties
-rwxrwxrwx 1 root root 29 Feb 26 17:10 sequence_distributed_conf.properties
-rwxrwxrwx 1 root root 28 Feb 26 17:10 sequence_http_conf.properties
-rwxrwxrwx 1 root root 53 Feb 26 17:10 sequence_time_conf.properties
-rwxrwxrwx 1 root root 2420 Mar 4 15:14 server.xml
-rwxrwxrwx 1 root root 18 Feb 26 17:10 sharding-by-enum.txt
-rwxrwxrwx 1 root root 4251 Feb 28 20:51 wrapper.conf
drwxrwxrwx 2 root root 4096 Feb 28 21:17 zkconf
drwxrwxrwx 2 root root 4096 Feb 28 21:17 zkdownload
可以看到,在Mycat的conf目录下,存在一个myid.properties文件,接下来,使用vim编辑器编辑这个文件,如下所示。
vim myid.properties
编辑后的myid.properties文件的内容如下所示。
loadZk=true
zkURL=192.168.175.151:2181,192.168.175.152:2181,192.168.175.153:2181
clusterId=mycat-cluster-1
myid=mycat_151
clusterSize=2
clusterNodes=mycat_151,mycat_154
#server booster ; booster install on db same server,will reset all minCon to 2
type=server
boosterDataHosts=dataHost1
其中几个重要的参数说明如下所示。
-
loadZk:表示是否加载Zookeeper配置。true:是; false:否;
-
zkURL:Zookeeper的连接地址,多个Zookeeper连接地址以逗号隔开;
-
clusterId:当前Mycat集群的Id标识,此标识需要与Zookeeper中/mycat目录下的目录名称相同,如下所示。
[zk: localhost:2181(CONNECTED) 1] ls /mycat
[mycat-cluster-1]
-
myid:当前Mycat节点的id,这里我的命名方式为mycat_前缀加上IP地址的最后三位;
-
clusterSize:表示Mycat集群中的Mycat节点个数,这里,我们在binghe151和binghe154节点上部署Mycat,所以Mycat节点的个数为2。
-
clusterNodes:Mycat集群中,所有的Mycat节点,此处的节点需要配置myid中配置的Mycat节点id,多个节点之前以逗号分隔。这里我配置的节点为:mycat_151,mycat_154。
2.在binghe154服务器上安装全新的Mycat
在binghe154服务器上下载并安装和binghe151服务器上相同版本的Mycat,并将其解压到binghe154服务器上的/usr/local/mycat目录下。
也可以在binghe151服务器上直接输入如下命令将Mycat的安装目录复制到binghe154服务器上。
[root@binghe151 ~]# scp -r /usr/local/mycat binghe154:/usr/local
注意:别忘了在binghe154服务器上配置Mycat的系统环境变量。
3.修改binghe154服务器上的Mycat配置
在binghe154服务器上修改Mycat安装目录下的conf目录中的myid.properties文件,如下所示。
vim /usr/local/mycat/conf/myid.properties
修改后的myid.properties文件的内容如下所示。
loadZk=true
zkURL=192.168.175.151:2181,192.168.175.152:2181,192.168.175.153:2181
clusterId=mycat-cluster-1
myid=mycat_154
clusterSize=2
clusterNodes=mycat_151,mycat_154
#server booster ; booster install on db same server,will reset all minCon to 2
type=server
boosterDataHosts=dataHost1
4.重启Mycat
分别重启binghe151服务器和binghe154服务器上的Mycat,如下所示。
注意:先重启
- binghe151服务器
[root@binghe151 ~]# mycat restart
Stopping Mycat-server…
Stopped Mycat-server.
Starting Mycat-server…
- binghe154服务器
[root@binghe154 ~]# mycat restart
Stopping Mycat-server…
Stopped Mycat-server.
Starting Mycat-server…
在binghe151和binghe154服务器上分别查看Mycat的启动日志,如下所示。
STATUS | wrapper | 2020/03/08 21:08:15 | <-- Wrapper Stopped
STATUS | wrapper | 2020/03/08 21:08:15 | --> Wrapper Started as Daemon
STATUS | wrapper | 2020/03/08 21:08:15 | Launching a JVM…
INFO | jvm 1 | 2020/03/08 21:08:16 | Wrapper (Version 3.2.3) http://wrapper.tanukisoftware.org
INFO | jvm 1 | 2020/03/08 21:08:16 | Copyright 1999-2006 Tanuki Software, Inc. All Rights Reserved.
INFO | jvm 1 | 2020/03/08 21:08:16 |
INFO | jvm 1 | 2020/03/08 21:08:28 | MyCAT Server startup successfully. see logs in logs/mycat.log
从日志的输出结果可以看出,Mycat重启成功。
此时,先重启binghe151服务器上的Mycat,再重启binghe154服务器上的Mycat之后,我们会发现binghe154服务器上的Mycat的conf目录下的schema.xml、server.xml、ru 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 le.xml和sequence_db_conf.properties文件与binghe151服务器上Mycat的配置文件相同,这就是binghe154服务器上的Mycat从Zookeeper上读取配置文件的结果。
以后,我们只需要修改Zookeeper中有关Mycat的配置,这些配置就会自动同步到Mycat中,这样可以保证多个Mycat节点的配置是一致的。
[](()配置虚拟IP
分别在binghe151和binghe154服务器上配置虚拟IP,如下所示。
ifconfig eth0:1 192.168.175.110 broadcast 192.168.175.255 netmask 255.255.255.0 up
route add -host 192.168.175.110 dev eth0:1
配置完虚拟IP的效果如下所示,以binghe151服务器为例。
[root@binghe151 ~]# ifconfig
eth0 Link encap:Ethernet HWaddr 00:0C:29:10:A1:45
inet addr:192.168.175.151 Bcast:192.168.175.255 Mask:255.255.255.0
inet6 addr: fe80::20c:29ff:fe10:a145/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:116766 errors:0 dropped:0 overruns:0 frame:0
TX packets:85230 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:25559422 (24.3 MiB) TX bytes:55997016 (53.4 MiB)
eth0:1 Link encap:Ethernet HWaddr 00:0C:29:10:A1:45
inet addr:192.168.175.110 Bcast:192.168.175.255 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
lo Link encap:Local Loopback
inet addr:127.0.0.1 Mask:255.0.0.0
inet6 addr: ::1/128 Scope:Host
UP LOOPBACK RUNNING MTU:65536 Metric:1
RX packets:51102 errors:0 dropped:0 overruns:0 frame:0
TX packets:51102 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:0
RX bytes:2934009 (2.7 MiB) TX bytes:2934009 (2.7 MiB)
**注意:**在命令行添加VIP后,当服务器重启后,VIP信息会消失,所以,最好是将创建VIP的命令写到一个脚本文件中,例如,将命令写到/usr/local/script/vip.sh文件中,如下所示。
mkdir /usr/local/script
vim /usr/local/script/vip.sh
文件的内容如下所示。
ifconfig eth0:1 192.168.175.110 broadcast 192.168.175.255 netmask 255.255.255.0 up
route add -host 192.168.175.110 dev eth0:1
接下来,将/usr/local/script/vip.sh文件添加到服务器开机启动项中,如下所示。
echo /usr/local/script/vip.sh >> /etc/rc.d/rc.local
[](()配置IP转发
在binghe151和binghe154服务器上配置系统内核IP转发功能,编辑/etc/sysctl.conf文件,如下所示。
vim /etc/sysctl.conf
找到如下一行代码。
net.ipv4.ip_forward = 0
将其修改成如下所示的代码。
net.ipv4.ip_forward = 1
保存并退出vim编辑器,并运行如下命令使配置生效。
sysctl -p
[](()安装并配置xinetd服务
我们需要在安装HAProxy的服务器上,也就是在binghe151和binghe154服务器上安装xinetd服务来开启48700端口。
(1)在服务器命令行执行如下命令安装xinetd服务,如下所示。
yum install xinetd -y
(2)编辑/etc/xinetd.conf文件,如下所示。
vim /etc/xinetd.conf
检查文件中是否存在如下配置。
includedir /etc/xinetd.d
如果/etc/xinetd.conf文件中没有以上配置,则在/etc/xinetd.conf文件中添加以上配置;如果存在以上配置,则不用修改。
(3)创建/etc/xinetd.d目录,如下所示。
mkdir /etc/xinetd.d
注意:如果/etc/xinetd.d目录已经存在,创建目录时会报如下错误。
mkdir: cannot create directory `/etc/xinetd.d’: File exists
大家可不必理会此错误信息。
(4)在/etc/xinetd.d目录下添加Mycat状态检测服务器的配置文件mycat_status,如下所示。
touch /etc/xinetd.d/mycat_status
(5)编辑mycat_status文件,如下所示。
vim /etc/xinetd.d/mycat_status
编辑后的mycat_status文件中的内容如下所示。
service mycat_status
flags = REUSE
socket_type = stream
port = 48700
wait = no
user = root
server =/usr/local/bin/mycat_check.sh
log_on_failure += USERID
disable = no
部分xinetd配置参数说明如下所示。
-
socket_type:表示封包处理方式,Stream为TCP数据包。
-
port:表示xinetd服务监听的端口号。
-
wait:表示不需等待,即服务将以多线程的方式运行。
-
user:运行xinted服务的用户。
-
server:需要启动的服务脚本。
-
log_on_failure:记录失败的日志内容。
-
disable:需要启动xinted服务时,需要将此配置项设置为no。
(6)在/usr/local/bin目录下添加mycat_check.sh服务脚本,如下所示。
touch /usr/local/bin/mycat_check.sh
(7)编辑/usr/local/bin/mycat_check.sh文件,如下所示。
vim /usr/local/bin/mycat_check.sh
编辑后的文件内容如下所示。
#!/bin/bash
mycat=/usr/local/mycat/bin/mycat status | grep 'not running' | wc -l
if [ “$mycat” = “0” ]; then
/bin/echo -e “HTTP/1.1 200 OK\\r\\n”
else
/bin/echo -e “HTTP/1.1 503 Service Unavailable\\r\\n”
/usr/local/mycat/bin/mycat start
fi
为mycat_check.sh文件赋予可执行权限,如下所示。
chmod a+x /usr/local/bin/mycat_check.sh
(8)编辑/etc/services文件,如下所示。
vim /etc/services
在文件末尾添加如下所示的内容。
mycat_status 48700/tcp # mycat_status
其中,端口号需要与在/etc/xinetd.d/mycat_status文件中配置的端口号相同。
(9)重启xinetd服务,如下所示。
service xinetd restart
(10)查看mycat_status服务是否成功启动,如下所示。
- binghe151服务器
[root@binghe151 ~]# netstat -antup|grep 48700
tcp 0 0 :::48700 ::😗 LISTEN 2776/xinetd
- binghe154服务器
[root@binghe154 ~]# netstat -antup|grep 48700
tcp 0 0 :::48700 ::😗 LISTEN 6654/xinetd
结果显示,两台服务器上的mycat_status服务器启动成功。
至此,xinetd服务安装并配置成功,即Mycat状态检查服务安装成功。
[](()安装并配置HAProxy
我们直接在binghe151和binghe154服务器上使用如下命令安装HAProxy。
yum install haproxy -y
安装完成后,我们需要对HAProxy进行配置,HAProxy的配置文件目录为/etc/haproxy,我们查看这个目录下的文件信息,如下所示。
[root@binghe151 ~]# ll /etc/haproxy/
total 4
-rw-r–r-- 1 root root 3142 Oct 21 2016 haproxy.cfg
发现/etc/haproxy/目录下存在一个haproxy.cfg文件。接下来,我们就修改haproxy.cfg文件,修改后的haproxy.cfg文件的内容如下所示。
global
log 127.0.0.1 local2
chroot /var/lib/haproxy
pidfile /var/run/haproxy.pid
maxconn 4000
user haproxy
group haproxy
daemon
stats socket /var/lib/haproxy/stats
defaults
mode http
log global
option httplog
option dontlognull
option http-server-close
option redispatch
retries 3
timeout http-request 10s
timeout queue 1m
timeout connect 10s
timeout client 1m
timeout server 1m
timeout http-keep-alive 10s
timeout check 10s
maxconn 3000
listen admin_status
bind 0.0.0.0:48800
stats uri /admin-status
stats auth admin:admin
listen allmycat_service
bind 0.0.0.0:3366
mode tcp
option tcplog
option httpchk OPTIONS * HTTP/1.1\\r\\nHost:\\ www
balance roundrobin
server mycat_151 192.168.175.151:3307 check port 48700 inter 5s rise 2 fall 3
server mycat_154 192.168.175.154:3307 check port 48700 inter 5s rise 2 fall 3
listen allmycat_admin
bind 0.0.0.0:3377
mode tcp
option tcplog
option httpchk OPTIONS * HTTP/1.1\\r\\nHost:\\ www
balance roundrobin
server mycat_151 192.168.175.151:3308 check port 48700 inter 5s rise 2 fall 3
server mycat_154 192.168.175.154:3308 check port 48700 inter 5s rise 2 fall 3
接下来,在binghe151服务器和binghe154服务器上启动HAProxy,如下所示。
haproxy -f /etc/haproxy/haproxy.cfg
接下来,我们使用mysql命令连接HAProxy监听的虚拟IP和端口来连接Mycat,如下所示。
[root@binghe151 ~]# mysql -umycat -pmycat -h192.168.175.110 -P3366 --default-auth=mysql_native_password
mysql: [Warning] Using a password on the command line interface can be insecure.
Welcome to the MySQL monitor. Commands end with ; or \\g.
Your MySQL connection id is 2
Server version: 5.6.29-mycat-1.6.7.4-release-20200228205020 MyCat Server (OpenCloudDB)
Copyright © 2000, 2019, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type ‘help;’ or ‘\\h’ for help. Type ‘\\c’ to clear the current input statement.
mysql>
可以看到,连接Mycat成功。
[](()安装Keepalived
1.安装并配置Keepalived
直接在binghe151和binghe154服务器上输入如下命令安装Keepalived。
yum install keepalived -y
安装成功后,会在/etc目录下生成一个keepalived目录,接下来,我们在/etc/keepalived目录下配置keepalived.conf文件,如下所示。
vim /etc/keepalived/keepalived.conf
- binghe151服务器配置
! Configuration Fileforkeepalived
vrrp_script chk_http_port
script “/etc/keepalived/check_haproxy.sh”
interval 2
weight 2
vrrp_instance VI_1
state MASTER
interface eth0
virtual_router_id 51
priority 150
advert_int 1
authentication
auth_type PASS
auth_pass 1111
track_script
chk_http_port
virtual_ipaddress
192.168.175.110 dev eth0 scope global
- binghe154服务器配置
! Configuration Fileforkeepalived
vrrp_script chk_http_port
script “/etc/keepalived/check_haproxy.sh”
interval 2
weight 2
vrrp_instance VI_1
state SLAVE
interface eth0
virtual_router_id 51
priority 120
advert_int 1
authentication
auth_type PASS
auth_pass 1111
track_script
chk_http_port
virtual_ipaddress
192.168.175.110 dev eth0 scope global
2.编写检测HAProxy的脚本
接下来,需要分别在binghe151和binghe154服务器上的/etc/keepalived目录下创建check_haproxy.sh脚本,脚本内容如下所示。
#!/bin/bash
STARTHAPROXY=“/usr/sbin/haproxy -f /etc/haproxy/haproxy.cfg”
STOPKEEPALIVED=“/etc/init.d/keepalived stop”
#STOPKEEPALIVED=“/usr/bin/systemctl stop keepalived”
LOGFILE=“/var/log/keepalived-haproxy-state.log”
echo “[check_haproxy status]” >> $LOGFILE
A=ps -C haproxy --no-header |wc -l
echo “[check_haproxy status]” >> $LOGFILE
date >> $LOGFILE
if [ $A -eq 0 ];then
echo $STARTHAPROXY >> $LOGFILE
$STARTHAPROXY >> $LOGFILE 2>&1
sleep 5
fi
if [ ps -C haproxy --no-header |wc -l
-eq 0 ];then
exit 0
else
exit 1
fi
使用如下命令为check_haproxy.sh脚本授予可执行权限。
chmod a+x /etc/keepalived/check_haproxy.sh
3.启动Keepalived
配置完成后,我们就可以启动Keepalived了,分别在binghe151和binghe154服务器上启动Keepalived,如下所示。
/etc/init.d/keepalived start
查看Keepalived是否启动成功,如下所示。
- binghe151服务器
[root@binghe151 ~]# ps -ef | grep keepalived
root 1221 1 0 20:06 ? 00:00:00 keepalived -D
root 1222 1221 0 20:06 ? 00:00:00 keepalived -D
root 1223 1221 0 20:06 ? 00:00:02 keepalived -D
root 93290 3787 0 21:42 pts/0 00:00:00 grep keepalived
- binghe154服务器
[root@binghe154 ~]# ps -ef | grep keepalived
root 1224 1 0 20:06 ? 00:00:00 keepalived -D
root 1225 1224 0 20:06 ? 00:00:00 keepalived -D
root 1226 1224 0 20:06 ? 00:00:02 keepalived -D
root 94636 3798 0 21:43 pts/0 00:00:00 grep keepalived
可以看到,两台服务器上的Keepalived服务启动成功。
4.验证Keepalived绑定的虚拟IP
接下来,我们分别查看两台服务器上的Keepalived是否绑定了虚拟IP。
- binghe151服务器
[root@binghe151 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether 00:0c:29:10:a1:45 brd ff:ff:ff:ff:ff:ff
inet 192.168.175.151/24 brd 192.168.175.255 scope global eth0
inet 192.168.175.110/32 scope global eth0
inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1
inet6 fe80::20c:29ff:fe10:a145/64 scope link
valid_lft forever preferred_lft forever
可以看到如下一行代码。
inet 192.168.175.110/32 scope global eth0
说明binghe151服务器上的Keepalived绑定了虚拟IP 192.168.175.110。
- binghe154服务器
[root@binghe154 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether 00:50:56:22:2a:75 brd ff:ff:ff:ff:ff:ff
inet 192.168.175.154/24 brd 192.168.175.255 scope global eth0
inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1
inet6 fe80::250:56ff:fe22:2a75/64 scope link
valid_lft forever preferred_lft forever
可以看到binghe154服务器上的Keepalived并没有绑定虚拟IP。
5.测试虚拟IP的漂移
如何测试虚拟IP的漂移呢?首先,我们停止binghe151服务器上的Keepalived,如下所示。
/etc/init.d/keepalived stop
接下来,查看binghe154服务器上Keepalived绑定虚拟IP的情况,如下所示。
[root@binghe154 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether 00:50:56:22:2a:75 brd ff:ff:ff:ff:ff:ff
inet 192.168.175.154/24 brd 192.168.175.255 scope global eth0
inet 192.168.175.110/32 scope global eth0
inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1
inet6 fe80::250:56ff:fe22:2a75/64 scope link
valid_lft forever preferred_lft forever
可以看到,在输出的结果信息中,存在如下一行信息。
inet 192.168.175.110/32 scope global eth0
说明binghe154服务器上的Keepalived绑定了虚拟IP 192.168.175.110,虚拟IP漂移到了binghe154服务器上。
6.binghe151服务器上的Keepalived抢占虚拟IP
接下来,我们启动binghe151服务器上的Keepalived,如下所示。
/etc/init.d/keepalived start
启动成功后,我们再次查看虚拟IP的绑定情况,如下所示。
- binghe151服务器
[root@binghe151 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether 00:0c:29:10:a1:45 brd ff:ff:ff:ff:ff:ff
inet 192.168.175.151/24 brd 192.168.175.255 scope global eth0
inet 192.168.175.110/32 scope global eth0
inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1
inet6 fe80::20c:29ff:fe10:a145/64 scope link
valid_lft forever preferred_lft forever
- binghe154服务器
[root@binghe154 ~]# ip addr
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether 00:50:56:22:2a:75 brd ff:ff:ff:ff:ff:ff
inet 192.168.175.154/24 brd 192.168.175.255 scope global eth0
inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1
inet6 fe80::250:56ff:fe22:2a75/64 scope link
valid_lft forever preferred_lft forever
由于binghe151服务器上配置的Keepalived优先级要高于binghe154服务器上的Keepalived,所以,再次启动binghe151服务器上的Keepalived后,binghe151服务器上的Keepalived会抢占虚拟IP。
[](()配置MySQL主从复制
这里,为了简单,我将binghe154和binghe155服务器上的MySQL配置成主从复制,大家也可以根据实际情况,自行配置其他服务器上MySQL的主从复制(注意:我这里配置的是一主一从模式)。
1.编辑my.cnf文件
- binghe154服务器
server_id = 154
log_bin = /data/mysql/log/bin_log/mysql-bin
binlog-ignore-db=mysql
binlog_format= mixed
sync_binlog=100
log_slave_updates = 1
binlog_cache_size=32m
max_binlog_cache_size=64m
max_binlog_size=512m
lower_case_table_names = 1
relay_log = /data/mysql/log/bin_log/relay-bin
relay_log_index = /data/mysql/log/bin_log/relay-bin.index
master_info_repository=TABLE
relay-log-info-repository=TABLE
relay-log-recovery
- binghe155服务器
server_id = 155
log_bin = /data/mysql/log/bin_log/mysql-bin
binlog-ignore-db=mysql
binlog_format= mixed
sync_binlog=100
log_slave_updates = 1
binlog_cache_size=32m
max_binlog_cache_size=64m
max_binlog_size=512m
lower_case_table_names = 1
relay_log = /data/mysql/log/bin_log/relay-bin
relay_log_index = /data/mysql/log/bin_log/relay-bin.index
master_info_repository=TABLE
relay-log-info-repository=TABLE
relay-log-recovery
2.同步两台服务器上MySQL的数据
在binghe154服务器上只有一个customer_db数据库,我们使用mysqldump命令导出customer_db数据库,如下所示。
[root@binghe154 ~]# mysqldump --master-data=2 --single-transaction -uroot -p --databases customer_db > binghe154.sql
Enter password:
接下来,我们查看binghe154.sql文件。
more binghe154.sql
在文件中,我们可以找到如下信息。
CHANGE MASTER TO MASTER_LOG_FILE=‘mysql-bin.000042’, MASTER_LOG_POS=995;
说明当前MySQL的二进制日志文件为mysql-bin.000042,二进制日志文件的位置为995。
接下来,我们将binghe154.sql文件复制到binghe155服务器上,如下所示。
scp binghe154.sql 192.168.175.155:/usr/local/src
在binghe155服务器上,将binghe154.sql脚本导入到MySQL中,如下所示。
mysql -uroot -p < /usr/local/src/binghe154.sql
此时,完成了数据的初始化。
3.创建主从复制账号
在binghe154服务器的MySQL中,创建用于主从复制的MySQL账号,如下所示。
mysql> CREATE USER ‘repl’@‘192.168.175.%’ IDENTIFIED BY ‘repl123456’;
Query OK, 0 rows affected (0.01 sec)
mysql> ALTER USER ‘repl’@‘192.168.175.%’ IDENTIFIED WITH mysql_native_password BY ‘repl123456’;
Query OK, 0 rows affected (0.00 sec)
mysql> GRANT REPLICATION SLAVE ON . TO ‘repl’@‘192.168.175.%’;
Query OK, 0 rows affected (0.00 sec)
mysql> FLUSH PRIVILEGES;
Query OK, 0 rows affected (0.00 sec)
4.配置复制链路
登录binghe155服务器上的MySQL,并使用如下命令配置复制链路。
mysql> change master to
master_host=‘192.168.175.154’,
master_port=3306,
master_user=‘repl’,
master_password=‘repl123456’,
MASTER_LOG_FILE=‘mysql-bin.000042’,
MASTER_LOG_POS=995;
其中,MASTER_LOG_FILE=‘mysql-bin.000042’, MASTER_LOG_POS=995 就是在binghe154.sql文件中找到的。
5.启动从库
在binghe155服务器的MySQL命令行启动从库,如下所示。
mysql> start slave;
查看从库是否启动成功,如下所示。
mysql> SHOW slave STATUS \\G
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event
Master_Host: 192.168.175.151
Master_User: binghe152
Master_Port: 3306
Connect_Retry: 60
Master_Log_File: mysql-bin.000007
Read_Master_Log_Pos: 1360
Relay_Log_File: relay-bin.000003
Relay_Log_Pos: 322
Relay_Master_Log_File: mysql-bin.000007
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
#################省略部分输出结果信息##################
结果显示Slave_IO_Running选项和Slave_SQL_Running选项的值均为Yes,说明MySQL主从复制环境搭建成功。
最后,别忘了在binghe155服务器的MySQL中创建Mycat连接MySQL的用户,如下所示。
CREATE USER ‘mycat’@‘192.168.175.%’ IDENTIFIED BY ‘mycat’;
ALTER USER ‘mycat’@‘192.168.175.%’ IDENTIFIED WITH mysql_native_password BY ‘mycat’;
GRANT SELECT, INSERT, UPDATE, DELETE,EXECUTE ON . TO ‘mycat’@‘192.168.175.%’;
FLUSH PRIVILEGES;
[](()配置Mycat读写分离
修改Mycatd的schema.xml文件,实现binghe154和binghe155服务器上的MySQL读写分离。在Mycat安装目录的conf/zkconf目录下,修改schema.xml文件,修改后的schema.xml文件如下所示。
<mycat:schema xmlns:mycat=“http://io.mycat/”>
select user()
select user()
select user()
select user()
<readHost host=“binghe55”, url=“192.168.175.155:3306” user=“mycat” password=“mycat”/>
</mycat:schema>
保存并退出vim编辑器,接下来,初始化Zookeeper中的数据,如下所示。
/usr/local/mycat/bin/init_zk_data.sh
上述命令执行成功后,会自动将配置同步到binghe151和binghe154服务器上的Mycat的安装目录下的conf目录下的schema.xml中。
接下来,分别启动binghe151和binghe154服务器上的Mycat服务。
mycat restart
[](()如何访问高可用环境
此时,整个高可用环境配置完成,上层应用连接高可用环境时,需要连接HAProxy监听的IP和端口。比如使用mysql命令连接高可用环境如下所示。
[root@binghe151 ~]# mysql -umycat -pmycat -h192.168.175.110 -P3366 --default-auth=mysql_native_password
mysql: [Warning] Using a password on the command line interface can be insecure.
Welcome to the MySQL monitor. Commands end with ; or \\g.
Your MySQL connection id is 2
Server version: 5.6.29-mycat-1.6.7.4-release-20200228205020 MyCat Server (OpenCloudDB)
Copyright © 2000, 2019, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type ‘help;’ or ‘\\h’ for help. Type ‘\\c’ to clear the current input statement.
mysql> show databases;
±---------+
| DATABASE |
±---------+
| shop |
±---------+
1 row in set (0.10 sec)
mysql> use shop;
万亿级日志与行为数据存储查询技术剖析(续)——Tindex是改造的lucene和druid
五、Tindex
数果智能根据开源的方案自研了一套数据存储的解决方案,该方案的索引层通过改造Lucene实现,数据查询和索引写入框架通过扩展Druid实现。既保证了数据的实时性和指标自由定义的问题,又能满足大数据量秒级查询的需求,系统架构如下图,基本实现了文章开头提出的几个目标。
(点击放大图像)
Tindex主要涉及的几个组件
Tindex-Segment,负责文件存储格式,包括数据的索引和存储,查询优化,以及段内数据搜索与实时聚合等。Tindex是基于Lucene的思想重构实现的,由于Lucene索引内容过于复杂,但是其索引的性能在开源方案中比较完善,在数据的压缩和性能之间做了很好的平衡。我们通过改造,主要保留了其必要的索引信息,比原有的Lucene节省了更多的存储空间,同时也加快了查询速度。主要改进有以下几点:
1、高效压缩存储格式
对于海量行为数据的存储来说,存储容量无疑是一个不容忽视的问题。对于使用索引的方案来说,索引后的数据容量通常相对原有数据会有一定程度的膨胀。针对这类情况,Tindex针对索引的不同部分,分别使用了不同形式的压缩技术,保障了能够支持高效查询的同时仅仅需要较少的容量。对于数据内容部分,使用字典的方式编码存储,每条记录仅仅存储文档编号。对于字典本身的存储,使用了前缀压缩的方式,从而降低高基数维度的空间消耗。实际情况下,使用 Tindex 压缩后的数据占用的存储容量仅仅为原始数据的1/5左右。
2、列式倒排和正向索引的存储
由于实际使用中,往往需要同时支持搜索和聚合两种场景,而这两种方式对于索引结构的需求是完全相反的。针对这两种情况,Tindex结合了倒排索引和列正向索引这两种不同类型的索引。对于倒排索引部分,使用字典和跳表等技术,实现了数据的快速检索,而对于正向部分,则通过高效的压缩技术,实现了对于海量行下指定列的快速读取。同时,根据不同的情况,可以选择性的只建立其中一种索引(默认情况对于每一列均会同时建两种索引),从而节省大约一般的存储空间和索引时间。
Tindex-Druid,负责分布式查询引擎、指标定义引擎、数据的实时导入、实时数据和元数据管理以及数据缓存。之所以选择Druid是因为我们发现其框架扩展性、查询引擎设计的非常好,很多性能细节都考虑在内。例如:
- 堆外内存的复用,避免GC问题;
- 根据查询数据的粒度,以Sequence的方式构建小批量的数据,内存利用率更高;
- 查询有bySegment级别的缓存,可以做到大范围固定模式的查询;
- 多种query,最大化提升查询性能,例如topN、timeSeries等查询等等。
框架可灵活的扩展,也是我们考虑的一个很重要的元素,在我们重写了索引后,Druid社区针对高基数维度的查询上线了groupByV2,我们很快就完成了groupByV2也可见其框架非常灵活。
在我们看来,Druid的查询引擎很强大,但是索引层还是针对OLAP查询的场景,这就是我们选择Druid框架进行索引扩展的根本原因。 另外其充分考虑分布式的稳定性,HA策略,针对不同的机器设备情况和应用场景,灵活的配置最大化利用硬件性能来满足场景需要也是我们所看重的。
在开源的Druid版本上自研,继承了Druid所有优点的同时,对查询部分代码全部重新实现,从而在以下几个方面做了较大改进:
1、去掉指标预聚合,指标可以在查询时自由定义:
对于数据接入来说,不必区分维度和指标,只需要定义数据类型即可,数据使用原始数据的方式进行存储。当需要聚合时,在查询时定义指标即可。假设我们要接入一条包含数字的数据,我们现在只需要定义一个float类型的普通维度。
2、支持多种类型:
不同于原生的Druid只支持string类型维度的情况,我们改进后的版本可以支持string, int, long, float、时间等多种维度类型。在原生的Druid中,如果我们需要一个数值型的维度,那么我们只能通过string来实现,这样会带来一个很大的问题,即基于范围的过滤不能利用有序的倒排表,只能通过逐个比较来实现(因为我们不能把字符串大小当成数值大小,这样会导致这样的结果‘12’ < ’2’),从而性能会非常差,因为数值类型维度很容易出现高基维。对于改进后的版本,这样的问题就简单多了,将维度定义为对应的类型即可。
3、实现数据动态加载:
原有的Druid线上的数据,需要在启动时,全部加载才可以提供查询服务。我们通过改造,实现了LRU策略,启动的时候只需要加载段的元数据信息和少量的段信息即可。一方面提升了服务的启动时间,另外一方面,由于索引文件的读取基本都是MMap,当有大量数据段需要加载,在内存不足的情况,会直接使用磁盘swap Cache换页,严重影响查询性能。数据动态加载的很好的避免了使用磁盘swap Cache换页,查询都尽量使用内存,可以通过配置,最大限度的通过硬件环境提供最好的查询环境。
HDFS,大数据发展这么多年,HDFS已经成为PB级、ZB级甚至更多数据的分布式存储标准,很成熟了,所以数果也选用HDFS,不必重新造轮子。Tindex与HDFS可以完美结合,可以作为一个高压缩、自带索引的文件格式,兼容Hive,Spark的所有操作。
Kafka/MetaQ,消息队列,目前Tindex支持kafka、MetaQ等消息队列,由于Tindex对外扩展接口都是基于SPI机制实现,所以如有需要也可以扩展支持更多的消息队列。
Ecosystem Tools,负责Tindex的生态工具支持,目前主要支持Spark、Hive,计划扩展支持Impala、Drill等大数据查询引擎。
支持冷数据下线,通过离线方式(spark/Hive)查询,对于时序数据库普遍存在的一个问题是,对于失去时效性的数据,我们往往不希望它们继续占据宝贵的查询资源。然后我们往往需要在某些时候对他们查询。对于Tindex而言,可以通过将超过一定时间的数据定义为冷数据,这样对应的索引数据会从查询节点下线。当我们需要再次查询时,只需要调用对应的离线接口进行查询即可。
SQL Engine,负责SQL语义转换及表达式定义。
Zookeeper,负责集群状态管理。
未来还会持续优化改造后的Lucene索引,来得到更高的查询性能。优化指标聚合方式,包括:小批量的处理数据,充分利用CPU向量化并行计算的能力;利用code compile避免聚合虚函数频繁调用;与大数据生态对接的持续完善等等。
后续笔者还会深入讲解每一部分的详细实现原理及实践经验,敬请关注!如有凝问,可以加笔者微信happyjim2010,一起交流!
作者简介
王劲,数果智能,创始人&CEO。
曾任酷狗音乐大数据技术负责人、大数据架构师,负责酷狗大数据技术规划、建设、应用。
以上是关于MySQL如何实现万亿级数据存储?的主要内容,如果未能解决你的问题,请参考以下文章