MySQL如何实现万亿级数据存储?

Posted 明斯克开源

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MySQL如何实现万亿级数据存储?相关的知识,希望对你有一定的参考价值。

可以看到,我们在Mycat的schema.xml文件中配置的dataHost节点的信息,成功写入到Zookeeper中了。

为了验证Mycat的配置信息,是否已经同步到Zookeeper的其他节点上,我们也可以在binghe152和binghe153服务器上登录Zookeeper,查看Mycat配置信息是否写入成功。

  • binghe152服务器

[root@binghe152 ~]# zkCli.sh

Connecting to localhost:2181

#################省略N行输出信息################

[zk: localhost:2181(CONNECTED) 0] get /mycat/mycat-cluster-1/schema/dataHost

[“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe151”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe51”,“url”:“192.168.175.151:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe152”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe52”,“url”:“192.168.175.152:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe153”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe53”,“url”:“192.168.175.153:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe154”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe54”,“url”:“192.168.175.154:3306”,“password”:“root”,“user”:“root”]]

可以看到,Mycat的配置信息成功同步到了binghe152服务器上的Zookeeper中。

  • binghe153服务器

[root@binghe153 ~]# zkCli.sh

Connecting to localhost:2181

#####################此处省略N行输出信息#####################

[zk: localhost:2181(CONNECTED) 0] get /mycat/mycat-cluster-1/schema/dataHost

[“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe151”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe51”,“url”:“192.168.175.151:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe152”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe52”,“url”:“192.168.175.152:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe153”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe53”,“url”:“192.168.175.153:3306”,“password”:“root”,“user”:“root”],“balance”:1,“maxCon”:1000,“minCon”:10,“name”:“binghe154”,“writeType”:0,“switchType”:1,“slaveThreshold”:100,“dbType”:“mysql”,“dbDriver”:“native”,“heartbeat”:“select user()”,“writeHost”:[“host”:“binghe54”,“url”:“192.168.175.154:3306”,“password”:“root”,“user”:“root”]]

可以看到,Mycat的配置信息成功同步到了binghe153服务器上的Zookeeper中。

[](()配置Mycat支持Zookeeper启动


1.在binghe151服务器上配置Mycat

在binghe151服务器上进入Mycat安装目录的conf目录下,查看文件信息,如下所示。

[root@binghe151 ~]# cd /usr/local/mycat/conf/

[root@binghe151 conf]# ll

total 108

-rwxrwxrwx 1 root root 92 Feb 26 17:10 autopartition-long.txt

-rwxrwxrwx 1 root root 51 Feb 26 17:10 auto-sharding-long.txt

-rwxrwxrwx 1 root root 67 Feb 26 17:10 auto-sharding-rang-mod.txt

-rwxrwxrwx 1 root root 340 Feb 26 17:10 cacheservice.properties

-rwxrwxrwx 1 root root 3338 Feb 26 17:10 dbseq.sql

-rwxrwxrwx 1 root root 3532 Feb 26 17:10 dbseq - utf8mb4.sql

-rw-r–r-- 1 root root 86 Mar 1 22:37 dnindex.properties

-rwxrwxrwx 1 root root 446 Feb 26 17:10 ehcache.xml

-rwxrwxrwx 1 root root 2454 Feb 26 17:10 index_to_charset.properties

-rwxrwxrwx 1 root root 1285 Feb 26 17:10 log4j2.xml

-rwxrwxrwx 1 root root 183 Feb 26 17:10 migrateTables.properties

-rwxrwxrwx 1 root root 271 Feb 26 17:10 myid.properties

-rwxrwxrwx 1 root root 16 Feb 26 17:10 partition-hash-int.txt

-rwxrwxrwx 1 root root 108 Feb 26 17:10 partition-range-mod.txt

-rwxrwxrwx 1 root root 988 Mar 1 16:59 rule.xml

-rwxrwxrwx 1 root root 3883 Mar 3 23:59 schema.xml

-rwxrwxrwx 1 root root 440 Feb 26 17:10 sequence_conf.properties

-rwxrwxrwx 1 root root 84 Mar 3 23:52 sequence_db_conf.properties

-rwxrwxrwx 1 root root 29 Feb 26 17:10 sequence_distributed_conf.properties

-rwxrwxrwx 1 root root 28 Feb 26 17:10 sequence_http_conf.properties

-rwxrwxrwx 1 root root 53 Feb 26 17:10 sequence_time_conf.properties

-rwxrwxrwx 1 root root 2420 Mar 4 15:14 server.xml

-rwxrwxrwx 1 root root 18 Feb 26 17:10 sharding-by-enum.txt

-rwxrwxrwx 1 root root 4251 Feb 28 20:51 wrapper.conf

drwxrwxrwx 2 root root 4096 Feb 28 21:17 zkconf

drwxrwxrwx 2 root root 4096 Feb 28 21:17 zkdownload

可以看到,在Mycat的conf目录下,存在一个myid.properties文件,接下来,使用vim编辑器编辑这个文件,如下所示。

vim myid.properties

编辑后的myid.properties文件的内容如下所示。

loadZk=true

zkURL=192.168.175.151:2181,192.168.175.152:2181,192.168.175.153:2181

clusterId=mycat-cluster-1

myid=mycat_151

clusterSize=2

clusterNodes=mycat_151,mycat_154

#server booster ; booster install on db same server,will reset all minCon to 2

type=server

boosterDataHosts=dataHost1

其中几个重要的参数说明如下所示。

  • loadZk:表示是否加载Zookeeper配置。true:是; false:否;

  • zkURL:Zookeeper的连接地址,多个Zookeeper连接地址以逗号隔开;

  • clusterId:当前Mycat集群的Id标识,此标识需要与Zookeeper中/mycat目录下的目录名称相同,如下所示。

[zk: localhost:2181(CONNECTED) 1] ls /mycat

[mycat-cluster-1]

  • myid:当前Mycat节点的id,这里我的命名方式为mycat_前缀加上IP地址的最后三位;

  • clusterSize:表示Mycat集群中的Mycat节点个数,这里,我们在binghe151和binghe154节点上部署Mycat,所以Mycat节点的个数为2。

  • clusterNodes:Mycat集群中,所有的Mycat节点,此处的节点需要配置myid中配置的Mycat节点id,多个节点之前以逗号分隔。这里我配置的节点为:mycat_151,mycat_154。

2.在binghe154服务器上安装全新的Mycat

在binghe154服务器上下载并安装和binghe151服务器上相同版本的Mycat,并将其解压到binghe154服务器上的/usr/local/mycat目录下。

也可以在binghe151服务器上直接输入如下命令将Mycat的安装目录复制到binghe154服务器上。

[root@binghe151 ~]# scp -r /usr/local/mycat binghe154:/usr/local

注意:别忘了在binghe154服务器上配置Mycat的系统环境变量。

3.修改binghe154服务器上的Mycat配置

在binghe154服务器上修改Mycat安装目录下的conf目录中的myid.properties文件,如下所示。

vim /usr/local/mycat/conf/myid.properties

修改后的myid.properties文件的内容如下所示。

loadZk=true

zkURL=192.168.175.151:2181,192.168.175.152:2181,192.168.175.153:2181

clusterId=mycat-cluster-1

myid=mycat_154

clusterSize=2

clusterNodes=mycat_151,mycat_154

#server booster ; booster install on db same server,will reset all minCon to 2

type=server

boosterDataHosts=dataHost1

4.重启Mycat

分别重启binghe151服务器和binghe154服务器上的Mycat,如下所示。

注意:先重启

  • binghe151服务器

[root@binghe151 ~]# mycat restart

Stopping Mycat-server…

Stopped Mycat-server.

Starting Mycat-server…

  • binghe154服务器

[root@binghe154 ~]# mycat restart

Stopping Mycat-server…

Stopped Mycat-server.

Starting Mycat-server…

在binghe151和binghe154服务器上分别查看Mycat的启动日志,如下所示。

STATUS | wrapper | 2020/03/08 21:08:15 | <-- Wrapper Stopped

STATUS | wrapper | 2020/03/08 21:08:15 | --> Wrapper Started as Daemon

STATUS | wrapper | 2020/03/08 21:08:15 | Launching a JVM…

INFO | jvm 1 | 2020/03/08 21:08:16 | Wrapper (Version 3.2.3) http://wrapper.tanukisoftware.org

INFO | jvm 1 | 2020/03/08 21:08:16 | Copyright 1999-2006 Tanuki Software, Inc. All Rights Reserved.

INFO | jvm 1 | 2020/03/08 21:08:16 |

INFO | jvm 1 | 2020/03/08 21:08:28 | MyCAT Server startup successfully. see logs in logs/mycat.log

从日志的输出结果可以看出,Mycat重启成功。

此时,先重启binghe151服务器上的Mycat,再重启binghe154服务器上的Mycat之后,我们会发现binghe154服务器上的Mycat的conf目录下的schema.xml、server.xml、ru 《一线大厂Java面试题解析+后端开发学习笔记+最新架构讲解视频+实战项目源码讲义》无偿开源 威信搜索公众号【编程进阶路】 le.xml和sequence_db_conf.properties文件与binghe151服务器上Mycat的配置文件相同,这就是binghe154服务器上的Mycat从Zookeeper上读取配置文件的结果。

以后,我们只需要修改Zookeeper中有关Mycat的配置,这些配置就会自动同步到Mycat中,这样可以保证多个Mycat节点的配置是一致的。

[](()配置虚拟IP


分别在binghe151和binghe154服务器上配置虚拟IP,如下所示。

ifconfig eth0:1 192.168.175.110 broadcast 192.168.175.255 netmask 255.255.255.0 up

route add -host 192.168.175.110 dev eth0:1

配置完虚拟IP的效果如下所示,以binghe151服务器为例。

[root@binghe151 ~]# ifconfig

eth0 Link encap:Ethernet HWaddr 00:0C:29:10:A1:45

inet addr:192.168.175.151 Bcast:192.168.175.255 Mask:255.255.255.0

inet6 addr: fe80::20c:29ff:fe10:a145/64 Scope:Link

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

RX packets:116766 errors:0 dropped:0 overruns:0 frame:0

TX packets:85230 errors:0 dropped:0 overruns:0 carrier:0

collisions:0 txqueuelen:1000

RX bytes:25559422 (24.3 MiB) TX bytes:55997016 (53.4 MiB)

eth0:1 Link encap:Ethernet HWaddr 00:0C:29:10:A1:45

inet addr:192.168.175.110 Bcast:192.168.175.255 Mask:255.255.255.0

UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1

lo Link encap:Local Loopback

inet addr:127.0.0.1 Mask:255.0.0.0

inet6 addr: ::1/128 Scope:Host

UP LOOPBACK RUNNING MTU:65536 Metric:1

RX packets:51102 errors:0 dropped:0 overruns:0 frame:0

TX packets:51102 errors:0 dropped:0 overruns:0 carrier:0

collisions:0 txqueuelen:0

RX bytes:2934009 (2.7 MiB) TX bytes:2934009 (2.7 MiB)

**注意:**在命令行添加VIP后,当服务器重启后,VIP信息会消失,所以,最好是将创建VIP的命令写到一个脚本文件中,例如,将命令写到/usr/local/script/vip.sh文件中,如下所示。

mkdir /usr/local/script

vim /usr/local/script/vip.sh

文件的内容如下所示。

ifconfig eth0:1 192.168.175.110 broadcast 192.168.175.255 netmask 255.255.255.0 up

route add -host 192.168.175.110 dev eth0:1

接下来,将/usr/local/script/vip.sh文件添加到服务器开机启动项中,如下所示。

echo /usr/local/script/vip.sh >> /etc/rc.d/rc.local

[](()配置IP转发


在binghe151和binghe154服务器上配置系统内核IP转发功能,编辑/etc/sysctl.conf文件,如下所示。

vim /etc/sysctl.conf

找到如下一行代码。

net.ipv4.ip_forward = 0

将其修改成如下所示的代码。

net.ipv4.ip_forward = 1

保存并退出vim编辑器,并运行如下命令使配置生效。

sysctl -p

[](()安装并配置xinetd服务


我们需要在安装HAProxy的服务器上,也就是在binghe151和binghe154服务器上安装xinetd服务来开启48700端口。

(1)在服务器命令行执行如下命令安装xinetd服务,如下所示。

yum install xinetd -y

(2)编辑/etc/xinetd.conf文件,如下所示。

vim /etc/xinetd.conf

检查文件中是否存在如下配置。

includedir /etc/xinetd.d

如果/etc/xinetd.conf文件中没有以上配置,则在/etc/xinetd.conf文件中添加以上配置;如果存在以上配置,则不用修改。

(3)创建/etc/xinetd.d目录,如下所示。

mkdir /etc/xinetd.d

注意:如果/etc/xinetd.d目录已经存在,创建目录时会报如下错误。

mkdir: cannot create directory `/etc/xinetd.d’: File exists

大家可不必理会此错误信息。

(4)在/etc/xinetd.d目录下添加Mycat状态检测服务器的配置文件mycat_status,如下所示。

touch /etc/xinetd.d/mycat_status

(5)编辑mycat_status文件,如下所示。

vim /etc/xinetd.d/mycat_status

编辑后的mycat_status文件中的内容如下所示。

service mycat_status

flags = REUSE

socket_type = stream

port = 48700

wait = no

user = root

server =/usr/local/bin/mycat_check.sh

log_on_failure += USERID

disable = no

部分xinetd配置参数说明如下所示。

  • socket_type:表示封包处理方式,Stream为TCP数据包。

  • port:表示xinetd服务监听的端口号。

  • wait:表示不需等待,即服务将以多线程的方式运行。

  • user:运行xinted服务的用户。

  • server:需要启动的服务脚本。

  • log_on_failure:记录失败的日志内容。

  • disable:需要启动xinted服务时,需要将此配置项设置为no。

(6)在/usr/local/bin目录下添加mycat_check.sh服务脚本,如下所示。

touch /usr/local/bin/mycat_check.sh

(7)编辑/usr/local/bin/mycat_check.sh文件,如下所示。

vim /usr/local/bin/mycat_check.sh

编辑后的文件内容如下所示。

#!/bin/bash

mycat=/usr/local/mycat/bin/mycat status | grep 'not running' | wc -l

if [ “$mycat” = “0” ]; then

/bin/echo -e “HTTP/1.1 200 OK\\r\\n”

else

/bin/echo -e “HTTP/1.1 503 Service Unavailable\\r\\n”

/usr/local/mycat/bin/mycat start

fi

为mycat_check.sh文件赋予可执行权限,如下所示。

chmod a+x /usr/local/bin/mycat_check.sh

(8)编辑/etc/services文件,如下所示。

vim /etc/services

在文件末尾添加如下所示的内容。

mycat_status 48700/tcp # mycat_status

其中,端口号需要与在/etc/xinetd.d/mycat_status文件中配置的端口号相同。

(9)重启xinetd服务,如下所示。

service xinetd restart

(10)查看mycat_status服务是否成功启动,如下所示。

  • binghe151服务器

[root@binghe151 ~]# netstat -antup|grep 48700

tcp 0 0 :::48700 ::😗 LISTEN 2776/xinetd

  • binghe154服务器

[root@binghe154 ~]# netstat -antup|grep 48700

tcp 0 0 :::48700 ::😗 LISTEN 6654/xinetd

结果显示,两台服务器上的mycat_status服务器启动成功。

至此,xinetd服务安装并配置成功,即Mycat状态检查服务安装成功。

[](()安装并配置HAProxy


我们直接在binghe151和binghe154服务器上使用如下命令安装HAProxy。

yum install haproxy -y

安装完成后,我们需要对HAProxy进行配置,HAProxy的配置文件目录为/etc/haproxy,我们查看这个目录下的文件信息,如下所示。

[root@binghe151 ~]# ll /etc/haproxy/

total 4

-rw-r–r-- 1 root root 3142 Oct 21 2016 haproxy.cfg

发现/etc/haproxy/目录下存在一个haproxy.cfg文件。接下来,我们就修改haproxy.cfg文件,修改后的haproxy.cfg文件的内容如下所示。

global

log 127.0.0.1 local2

chroot /var/lib/haproxy

pidfile /var/run/haproxy.pid

maxconn 4000

user haproxy

group haproxy

daemon

stats socket /var/lib/haproxy/stats

defaults

mode http

log global

option httplog

option dontlognull

option http-server-close

option redispatch

retries 3

timeout http-request 10s

timeout queue 1m

timeout connect 10s

timeout client 1m

timeout server 1m

timeout http-keep-alive 10s

timeout check 10s

maxconn 3000

listen admin_status

bind 0.0.0.0:48800

stats uri /admin-status

stats auth admin:admin

listen allmycat_service

bind 0.0.0.0:3366

mode tcp

option tcplog

option httpchk OPTIONS * HTTP/1.1\\r\\nHost:\\ www

balance roundrobin

server mycat_151 192.168.175.151:3307 check port 48700 inter 5s rise 2 fall 3

server mycat_154 192.168.175.154:3307 check port 48700 inter 5s rise 2 fall 3

listen allmycat_admin

bind 0.0.0.0:3377

mode tcp

option tcplog

option httpchk OPTIONS * HTTP/1.1\\r\\nHost:\\ www

balance roundrobin

server mycat_151 192.168.175.151:3308 check port 48700 inter 5s rise 2 fall 3

server mycat_154 192.168.175.154:3308 check port 48700 inter 5s rise 2 fall 3

接下来,在binghe151服务器和binghe154服务器上启动HAProxy,如下所示。

haproxy -f /etc/haproxy/haproxy.cfg

接下来,我们使用mysql命令连接HAProxy监听的虚拟IP和端口来连接Mycat,如下所示。

[root@binghe151 ~]# mysql -umycat -pmycat -h192.168.175.110 -P3366 --default-auth=mysql_native_password

mysql: [Warning] Using a password on the command line interface can be insecure.

Welcome to the MySQL monitor. Commands end with ; or \\g.

Your MySQL connection id is 2

Server version: 5.6.29-mycat-1.6.7.4-release-20200228205020 MyCat Server (OpenCloudDB)

Copyright © 2000, 2019, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its

affiliates. Other names may be trademarks of their respective

owners.

Type ‘help;’ or ‘\\h’ for help. Type ‘\\c’ to clear the current input statement.

mysql>

可以看到,连接Mycat成功。

[](()安装Keepalived


1.安装并配置Keepalived

直接在binghe151和binghe154服务器上输入如下命令安装Keepalived。

yum install keepalived -y

安装成功后,会在/etc目录下生成一个keepalived目录,接下来,我们在/etc/keepalived目录下配置keepalived.conf文件,如下所示。

vim /etc/keepalived/keepalived.conf

  • binghe151服务器配置

! Configuration Fileforkeepalived

vrrp_script chk_http_port

script “/etc/keepalived/check_haproxy.sh”

interval 2

weight 2

vrrp_instance VI_1

state MASTER

interface eth0

virtual_router_id 51

priority 150

advert_int 1

authentication

auth_type PASS

auth_pass 1111

track_script

chk_http_port

virtual_ipaddress

192.168.175.110 dev eth0 scope global

  • binghe154服务器配置

! Configuration Fileforkeepalived

vrrp_script chk_http_port

script “/etc/keepalived/check_haproxy.sh”

interval 2

weight 2

vrrp_instance VI_1

state SLAVE

interface eth0

virtual_router_id 51

priority 120

advert_int 1

authentication

auth_type PASS

auth_pass 1111

track_script

chk_http_port

virtual_ipaddress

192.168.175.110 dev eth0 scope global

2.编写检测HAProxy的脚本

接下来,需要分别在binghe151和binghe154服务器上的/etc/keepalived目录下创建check_haproxy.sh脚本,脚本内容如下所示。

#!/bin/bash

STARTHAPROXY=“/usr/sbin/haproxy -f /etc/haproxy/haproxy.cfg”

STOPKEEPALIVED=“/etc/init.d/keepalived stop”

#STOPKEEPALIVED=“/usr/bin/systemctl stop keepalived”

LOGFILE=“/var/log/keepalived-haproxy-state.log”

echo “[check_haproxy status]” >> $LOGFILE

A=ps -C haproxy --no-header |wc -l

echo “[check_haproxy status]” >> $LOGFILE

date >> $LOGFILE

if [ $A -eq 0 ];then

echo $STARTHAPROXY >> $LOGFILE

$STARTHAPROXY >> $LOGFILE 2>&1

sleep 5

fi

if [ ps -C haproxy --no-header |wc -l -eq 0 ];then

exit 0

else

exit 1

fi

使用如下命令为check_haproxy.sh脚本授予可执行权限。

chmod a+x /etc/keepalived/check_haproxy.sh

3.启动Keepalived

配置完成后,我们就可以启动Keepalived了,分别在binghe151和binghe154服务器上启动Keepalived,如下所示。

/etc/init.d/keepalived start

查看Keepalived是否启动成功,如下所示。

  • binghe151服务器

[root@binghe151 ~]# ps -ef | grep keepalived

root 1221 1 0 20:06 ? 00:00:00 keepalived -D

root 1222 1221 0 20:06 ? 00:00:00 keepalived -D

root 1223 1221 0 20:06 ? 00:00:02 keepalived -D

root 93290 3787 0 21:42 pts/0 00:00:00 grep keepalived

  • binghe154服务器

[root@binghe154 ~]# ps -ef | grep keepalived

root 1224 1 0 20:06 ? 00:00:00 keepalived -D

root 1225 1224 0 20:06 ? 00:00:00 keepalived -D

root 1226 1224 0 20:06 ? 00:00:02 keepalived -D

root 94636 3798 0 21:43 pts/0 00:00:00 grep keepalived

可以看到,两台服务器上的Keepalived服务启动成功。

4.验证Keepalived绑定的虚拟IP

接下来,我们分别查看两台服务器上的Keepalived是否绑定了虚拟IP。

  • binghe151服务器

[root@binghe151 ~]# ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:0c:29:10:a1:45 brd ff:ff:ff:ff:ff:ff

inet 192.168.175.151/24 brd 192.168.175.255 scope global eth0

inet 192.168.175.110/32 scope global eth0

inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1

inet6 fe80::20c:29ff:fe10:a145/64 scope link

valid_lft forever preferred_lft forever

可以看到如下一行代码。

inet 192.168.175.110/32 scope global eth0

说明binghe151服务器上的Keepalived绑定了虚拟IP 192.168.175.110。

  • binghe154服务器

[root@binghe154 ~]# ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:50:56:22:2a:75 brd ff:ff:ff:ff:ff:ff

inet 192.168.175.154/24 brd 192.168.175.255 scope global eth0

inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1

inet6 fe80::250:56ff:fe22:2a75/64 scope link

valid_lft forever preferred_lft forever

可以看到binghe154服务器上的Keepalived并没有绑定虚拟IP。

5.测试虚拟IP的漂移

如何测试虚拟IP的漂移呢?首先,我们停止binghe151服务器上的Keepalived,如下所示。

/etc/init.d/keepalived stop

接下来,查看binghe154服务器上Keepalived绑定虚拟IP的情况,如下所示。

[root@binghe154 ~]# ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:50:56:22:2a:75 brd ff:ff:ff:ff:ff:ff

inet 192.168.175.154/24 brd 192.168.175.255 scope global eth0

inet 192.168.175.110/32 scope global eth0

inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1

inet6 fe80::250:56ff:fe22:2a75/64 scope link

valid_lft forever preferred_lft forever

可以看到,在输出的结果信息中,存在如下一行信息。

inet 192.168.175.110/32 scope global eth0

说明binghe154服务器上的Keepalived绑定了虚拟IP 192.168.175.110,虚拟IP漂移到了binghe154服务器上。

6.binghe151服务器上的Keepalived抢占虚拟IP

接下来,我们启动binghe151服务器上的Keepalived,如下所示。

/etc/init.d/keepalived start

启动成功后,我们再次查看虚拟IP的绑定情况,如下所示。

  • binghe151服务器

[root@binghe151 ~]# ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:0c:29:10:a1:45 brd ff:ff:ff:ff:ff:ff

inet 192.168.175.151/24 brd 192.168.175.255 scope global eth0

inet 192.168.175.110/32 scope global eth0

inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1

inet6 fe80::20c:29ff:fe10:a145/64 scope link

valid_lft forever preferred_lft forever

  • binghe154服务器

[root@binghe154 ~]# ip addr

1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN

link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00

inet 127.0.0.1/8 scope host lo

inet6 ::1/128 scope host

valid_lft forever preferred_lft forever

2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000

link/ether 00:50:56:22:2a:75 brd ff:ff:ff:ff:ff:ff

inet 192.168.175.154/24 brd 192.168.175.255 scope global eth0

inet 192.168.175.110/24 brd 192.168.175.255 scope global secondary eth0:1

inet6 fe80::250:56ff:fe22:2a75/64 scope link

valid_lft forever preferred_lft forever

由于binghe151服务器上配置的Keepalived优先级要高于binghe154服务器上的Keepalived,所以,再次启动binghe151服务器上的Keepalived后,binghe151服务器上的Keepalived会抢占虚拟IP。

[](()配置MySQL主从复制


这里,为了简单,我将binghe154和binghe155服务器上的MySQL配置成主从复制,大家也可以根据实际情况,自行配置其他服务器上MySQL的主从复制(注意:我这里配置的是一主一从模式)。

1.编辑my.cnf文件

  • binghe154服务器

server_id = 154

log_bin = /data/mysql/log/bin_log/mysql-bin

binlog-ignore-db=mysql

binlog_format= mixed

sync_binlog=100

log_slave_updates = 1

binlog_cache_size=32m

max_binlog_cache_size=64m

max_binlog_size=512m

lower_case_table_names = 1

relay_log = /data/mysql/log/bin_log/relay-bin

relay_log_index = /data/mysql/log/bin_log/relay-bin.index

master_info_repository=TABLE

relay-log-info-repository=TABLE

relay-log-recovery

  • binghe155服务器

server_id = 155

log_bin = /data/mysql/log/bin_log/mysql-bin

binlog-ignore-db=mysql

binlog_format= mixed

sync_binlog=100

log_slave_updates = 1

binlog_cache_size=32m

max_binlog_cache_size=64m

max_binlog_size=512m

lower_case_table_names = 1

relay_log = /data/mysql/log/bin_log/relay-bin

relay_log_index = /data/mysql/log/bin_log/relay-bin.index

master_info_repository=TABLE

relay-log-info-repository=TABLE

relay-log-recovery

2.同步两台服务器上MySQL的数据

在binghe154服务器上只有一个customer_db数据库,我们使用mysqldump命令导出customer_db数据库,如下所示。

[root@binghe154 ~]# mysqldump --master-data=2 --single-transaction -uroot -p --databases customer_db > binghe154.sql

Enter password:

接下来,我们查看binghe154.sql文件。

more binghe154.sql

在文件中,我们可以找到如下信息。

CHANGE MASTER TO MASTER_LOG_FILE=‘mysql-bin.000042’, MASTER_LOG_POS=995;

说明当前MySQL的二进制日志文件为mysql-bin.000042,二进制日志文件的位置为995。

接下来,我们将binghe154.sql文件复制到binghe155服务器上,如下所示。

scp binghe154.sql 192.168.175.155:/usr/local/src

在binghe155服务器上,将binghe154.sql脚本导入到MySQL中,如下所示。

mysql -uroot -p < /usr/local/src/binghe154.sql

此时,完成了数据的初始化。

3.创建主从复制账号

在binghe154服务器的MySQL中,创建用于主从复制的MySQL账号,如下所示。

mysql> CREATE USER ‘repl’@‘192.168.175.%’ IDENTIFIED BY ‘repl123456’;

Query OK, 0 rows affected (0.01 sec)

mysql> ALTER USER ‘repl’@‘192.168.175.%’ IDENTIFIED WITH mysql_native_password BY ‘repl123456’;

Query OK, 0 rows affected (0.00 sec)

mysql> GRANT REPLICATION SLAVE ON . TO ‘repl’@‘192.168.175.%’;

Query OK, 0 rows affected (0.00 sec)

mysql> FLUSH PRIVILEGES;

Query OK, 0 rows affected (0.00 sec)

4.配置复制链路

登录binghe155服务器上的MySQL,并使用如下命令配置复制链路。

mysql> change master to

master_host=‘192.168.175.154’,

master_port=3306,

master_user=‘repl’,

master_password=‘repl123456’,

MASTER_LOG_FILE=‘mysql-bin.000042’,

MASTER_LOG_POS=995;

其中,MASTER_LOG_FILE=‘mysql-bin.000042’, MASTER_LOG_POS=995 就是在binghe154.sql文件中找到的。

5.启动从库

在binghe155服务器的MySQL命令行启动从库,如下所示。

mysql> start slave;

查看从库是否启动成功,如下所示。

mysql> SHOW slave STATUS \\G

*************************** 1. row ***************************

Slave_IO_State: Waiting for master to send event

Master_Host: 192.168.175.151

Master_User: binghe152

Master_Port: 3306

Connect_Retry: 60

Master_Log_File: mysql-bin.000007

Read_Master_Log_Pos: 1360

Relay_Log_File: relay-bin.000003

Relay_Log_Pos: 322

Relay_Master_Log_File: mysql-bin.000007

Slave_IO_Running: Yes

Slave_SQL_Running: Yes

#################省略部分输出结果信息##################

结果显示Slave_IO_Running选项和Slave_SQL_Running选项的值均为Yes,说明MySQL主从复制环境搭建成功。

最后,别忘了在binghe155服务器的MySQL中创建Mycat连接MySQL的用户,如下所示。

CREATE USER ‘mycat’@‘192.168.175.%’ IDENTIFIED BY ‘mycat’;

ALTER USER ‘mycat’@‘192.168.175.%’ IDENTIFIED WITH mysql_native_password BY ‘mycat’;

GRANT SELECT, INSERT, UPDATE, DELETE,EXECUTE ON . TO ‘mycat’@‘192.168.175.%’;

FLUSH PRIVILEGES;

[](()配置Mycat读写分离


修改Mycatd的schema.xml文件,实现binghe154和binghe155服务器上的MySQL读写分离。在Mycat安装目录的conf/zkconf目录下,修改schema.xml文件,修改后的schema.xml文件如下所示。

<mycat:schema xmlns:mycat=“http://io.mycat/”>

select user()

select user()

select user()

select user()

<readHost host=“binghe55”, url=“192.168.175.155:3306” user=“mycat” password=“mycat”/>

</mycat:schema>

保存并退出vim编辑器,接下来,初始化Zookeeper中的数据,如下所示。

/usr/local/mycat/bin/init_zk_data.sh

上述命令执行成功后,会自动将配置同步到binghe151和binghe154服务器上的Mycat的安装目录下的conf目录下的schema.xml中。

接下来,分别启动binghe151和binghe154服务器上的Mycat服务。

mycat restart

[](()如何访问高可用环境


此时,整个高可用环境配置完成,上层应用连接高可用环境时,需要连接HAProxy监听的IP和端口。比如使用mysql命令连接高可用环境如下所示。

[root@binghe151 ~]# mysql -umycat -pmycat -h192.168.175.110 -P3366 --default-auth=mysql_native_password

mysql: [Warning] Using a password on the command line interface can be insecure.

Welcome to the MySQL monitor. Commands end with ; or \\g.

Your MySQL connection id is 2

Server version: 5.6.29-mycat-1.6.7.4-release-20200228205020 MyCat Server (OpenCloudDB)

Copyright © 2000, 2019, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its

affiliates. Other names may be trademarks of their respective

owners.

Type ‘help;’ or ‘\\h’ for help. Type ‘\\c’ to clear the current input statement.

mysql> show databases;

±---------+

| DATABASE |

±---------+

| shop |

±---------+

1 row in set (0.10 sec)

mysql> use shop;

万亿级日志与行为数据存储查询技术剖析(续)——Tindex是改造的lucene和druid

五、Tindex

数果智能根据开源的方案自研了一套数据存储的解决方案,该方案的索引层通过改造Lucene实现,数据查询和索引写入框架通过扩展Druid实现。既保证了数据的实时性和指标自由定义的问题,又能满足大数据量秒级查询的需求,系统架构如下图,基本实现了文章开头提出的几个目标。

(点击放大图像)

技术分享

Tindex主要涉及的几个组件

Tindex-Segment,负责文件存储格式,包括数据的索引和存储,查询优化,以及段内数据搜索与实时聚合等。Tindex是基于Lucene的思想重构实现的,由于Lucene索引内容过于复杂,但是其索引的性能在开源方案中比较完善,在数据的压缩和性能之间做了很好的平衡。我们通过改造,主要保留了其必要的索引信息,比原有的Lucene节省了更多的存储空间,同时也加快了查询速度。主要改进有以下几点:

1、高效压缩存储格式

对于海量行为数据的存储来说,存储容量无疑是一个不容忽视的问题。对于使用索引的方案来说,索引后的数据容量通常相对原有数据会有一定程度的膨胀。针对这类情况,Tindex针对索引的不同部分,分别使用了不同形式的压缩技术,保障了能够支持高效查询的同时仅仅需要较少的容量。对于数据内容部分,使用字典的方式编码存储,每条记录仅仅存储文档编号。对于字典本身的存储,使用了前缀压缩的方式,从而降低高基数维度的空间消耗。实际情况下,使用 Tindex 压缩后的数据占用的存储容量仅仅为原始数据的1/5左右。

2、列式倒排和正向索引的存储

由于实际使用中,往往需要同时支持搜索和聚合两种场景,而这两种方式对于索引结构的需求是完全相反的。针对这两种情况,Tindex结合了倒排索引和列正向索引这两种不同类型的索引。对于倒排索引部分,使用字典和跳表等技术,实现了数据的快速检索,而对于正向部分,则通过高效的压缩技术,实现了对于海量行下指定列的快速读取。同时,根据不同的情况,可以选择性的只建立其中一种索引(默认情况对于每一列均会同时建两种索引),从而节省大约一般的存储空间和索引时间。

Tindex-Druid,负责分布式查询引擎、指标定义引擎、数据的实时导入、实时数据和元数据管理以及数据缓存。之所以选择Druid是因为我们发现其框架扩展性、查询引擎设计的非常好,很多性能细节都考虑在内。例如:

  • 堆外内存的复用,避免GC问题;
  • 根据查询数据的粒度,以Sequence的方式构建小批量的数据,内存利用率更高;
  • 查询有bySegment级别的缓存,可以做到大范围固定模式的查询;
  • 多种query,最大化提升查询性能,例如topN、timeSeries等查询等等。

框架可灵活的扩展,也是我们考虑的一个很重要的元素,在我们重写了索引后,Druid社区针对高基数维度的查询上线了groupByV2,我们很快就完成了groupByV2也可见其框架非常灵活。

在我们看来,Druid的查询引擎很强大,但是索引层还是针对OLAP查询的场景,这就是我们选择Druid框架进行索引扩展的根本原因。 另外其充分考虑分布式的稳定性,HA策略,针对不同的机器设备情况和应用场景,灵活的配置最大化利用硬件性能来满足场景需要也是我们所看重的。

在开源的Druid版本上自研,继承了Druid所有优点的同时,对查询部分代码全部重新实现,从而在以下几个方面做了较大改进:

1、去掉指标预聚合,指标可以在查询时自由定义:

对于数据接入来说,不必区分维度和指标,只需要定义数据类型即可,数据使用原始数据的方式进行存储。当需要聚合时,在查询时定义指标即可。假设我们要接入一条包含数字的数据,我们现在只需要定义一个float类型的普通维度。

2、支持多种类型:

不同于原生的Druid只支持string类型维度的情况,我们改进后的版本可以支持string, int, long, float、时间等多种维度类型。在原生的Druid中,如果我们需要一个数值型的维度,那么我们只能通过string来实现,这样会带来一个很大的问题,即基于范围的过滤不能利用有序的倒排表,只能通过逐个比较来实现(因为我们不能把字符串大小当成数值大小,这样会导致这样的结果‘12’ < ’2’),从而性能会非常差,因为数值类型维度很容易出现高基维。对于改进后的版本,这样的问题就简单多了,将维度定义为对应的类型即可。

3、实现数据动态加载:

原有的Druid线上的数据,需要在启动时,全部加载才可以提供查询服务。我们通过改造,实现了LRU策略,启动的时候只需要加载段的元数据信息和少量的段信息即可。一方面提升了服务的启动时间,另外一方面,由于索引文件的读取基本都是MMap,当有大量数据段需要加载,在内存不足的情况,会直接使用磁盘swap Cache换页,严重影响查询性能。数据动态加载的很好的避免了使用磁盘swap Cache换页,查询都尽量使用内存,可以通过配置,最大限度的通过硬件环境提供最好的查询环境。

HDFS,大数据发展这么多年,HDFS已经成为PB级、ZB级甚至更多数据的分布式存储标准,很成熟了,所以数果也选用HDFS,不必重新造轮子。Tindex与HDFS可以完美结合,可以作为一个高压缩、自带索引的文件格式,兼容Hive,Spark的所有操作。

Kafka/MetaQ,消息队列,目前Tindex支持kafka、MetaQ等消息队列,由于Tindex对外扩展接口都是基于SPI机制实现,所以如有需要也可以扩展支持更多的消息队列。

Ecosystem Tools,负责Tindex的生态工具支持,目前主要支持Spark、Hive,计划扩展支持Impala、Drill等大数据查询引擎。

支持冷数据下线,通过离线方式(spark/Hive)查询,对于时序数据库普遍存在的一个问题是,对于失去时效性的数据,我们往往不希望它们继续占据宝贵的查询资源。然后我们往往需要在某些时候对他们查询。对于Tindex而言,可以通过将超过一定时间的数据定义为冷数据,这样对应的索引数据会从查询节点下线。当我们需要再次查询时,只需要调用对应的离线接口进行查询即可。

SQL Engine,负责SQL语义转换及表达式定义。

Zookeeper,负责集群状态管理。

未来还会持续优化改造后的Lucene索引,来得到更高的查询性能。优化指标聚合方式,包括:小批量的处理数据,充分利用CPU向量化并行计算的能力;利用code compile避免聚合虚函数频繁调用;与大数据生态对接的持续完善等等。

后续笔者还会深入讲解每一部分的详细实现原理及实践经验,敬请关注!如有凝问,可以加笔者微信happyjim2010,一起交流!

作者简介

王劲,数果智能,创始人&CEO。
曾任酷狗音乐大数据技术负责人、大数据架构师,负责酷狗大数据技术规划、建设、应用。


以上是关于MySQL如何实现万亿级数据存储?的主要内容,如果未能解决你的问题,请参考以下文章

万亿级企业MySQL海量存储分库分表设计实践

从顶层设计和组织建设分享万亿级数据治理经验

这万亿级MySQL分库分表架构,搞得太棒了!

58技术主席:腾讯阿里的万亿级分布式架构如何设计?

用最少人力玩转万亿级数据,我用的就是MongoDB!

万亿级日志与行为数据存储查询技术剖析(续)——Tindex是改造的lucene和druid