淘宝太细了:mysql 和 es 的5个一致性方案,你知道吗?

Posted 疯狂创客圈

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了淘宝太细了:mysql 和 es 的5个一致性方案,你知道吗?相关的知识,希望对你有一定的参考价值。

文章很长,且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录 博客园版 为您奉上珍贵的学习资源 :

免费赠送 :《尼恩Java面试宝典》 持续更新+ 史上最全 + 面试必备 2000页+ 面试必备 + 大厂必备 +涨薪必备
免费赠送 :《尼恩技术圣经+高并发系列PDF》 ,帮你 实现技术自由,完成职业升级, 薪酬猛涨!加尼恩免费领
免费赠送 经典图书:《Java高并发核心编程(卷1)加强版》 面试必备 + 大厂必备 +涨薪必备 加尼恩免费领
免费赠送 经典图书:《Java高并发核心编程(卷2)加强版》 面试必备 + 大厂必备 +涨薪必备 加尼恩免费领
免费赠送 经典图书:《Java高并发核心编程(卷3)加强版》 面试必备 + 大厂必备 +涨薪必备 加尼恩免费领

免费赠送 资源宝库: Java 必备 百度网盘资源大合集 价值>10000元 加尼恩领取


说在前面

在40岁老架构师 尼恩的读者交流群(50+)中,最近有小伙伴拿到了一线互联网企业如拼多多、极兔、有赞、希音的面试资格,遇到一几个很重要的面试题:

  • 说5种mysql 和 elasticsearch 数据一致性方案

与之类似的、其他小伙伴遇到过的问题还有:

  • Mysql 和 ES 数据一致性问题及方案?

  • Mysql 和 redis 数据一致性问题及方案?

  • 如果保证 Mysql 和 redis 数据一致性?

  • 如果保证 Mysql 和 HBase数据一致性?

  • 等等等等.....

这里尼恩给大家做一下系统化、体系化的线程池梳理,使得大家可以充分展示一下大家雄厚的 “技术肌肉”,让面试官爱到 “不能自已、口水直流”

也一并把这个题目以及参考答案,收入咱们的 《尼恩Java面试宝典》V70版本,供后面的小伙伴参考,提升大家的 3高 架构、设计、开发水平。

最新《尼恩 架构笔记》《尼恩高并发三部曲 》、《尼恩Java面试宝典》 的PDF文件,请通过公众号【技术自由圈】获取

本文目录

问题场景分析

咱们的生产需求上,为了便于商品的聚合搜索,高速搜索,采用两大优化方案:

  • 把商品数据冗余存储在Elasticsearch中,实现高速搜索
  • 把商品数据冗余存储在redis 中,实现高速缓存

很多的时候,要求保持很高的数据一致性。

比如:

  • 要求 mysql 与 es 做到秒级别的数据同步。
  • 要求 mysql 与 redis 做到秒级别的数据同步。
  • 要求 mysql 与 hbase 做到秒级别的数据同步。

接下来,以 mysql 与 es 的数据一致,作为业务场景进行分析, 其他的场景比如mysql 与 redis 的数据一致性方案,都是差不多的。

只要大家能把下面的 5大数据一致性方案, 滔滔不绝的说出来,面试官一定会爱到 “不能自已、口水直流”。

方案一:同步双写

同步双写是一种最为简单的方式,在将数据写到 MySQL 时,同时将数据写到 ES。

同步双写优点:

这种方式简单粗暴,实时写入能做到秒级。

同步双写缺点:

  • 业务耦合,这种方式代码侵入性强,商品的管理中耦合大量数据同步代码,要在之前写 mysql 的地方加写 es 的代码。以后写 mysql 的地方也要加写 es 的代码。
  • 影响性能,写入两个存储,响应时间变长,本来 MySQL 的性能不是很高,再加一个 ES,系统的性能必然会下降。
  • 不便扩展:搜索可能有一些个性化需求,需要对数据进行聚合,这种方式不便实现
  • 高风险:存在双写失败丢数据风险

方案二:异步双写

同步操作性能低,异步性能高。

异步双写,分为两种:

  • 使用内存队列(如阻塞队列)异步
  • 使用消息队列进行异步

方案2.1 使用内存队列(如阻塞队列)异步

先把商品数据写入DB后,然后把 数据写入 BlockingQueue 阻塞队列

消费线程异步从 drain 数据,batch 写入 ElasticSearch, 保证数据一致性

方案2.2 使用消息队列(如阻塞队列)异步

如果内存队列里边数据丢失,那么es 当中的数据和DB就不一致了

如果解决呢?

  • 方式1:定期同步 db数据到 es ,同步周期一般比较长,这里有比较长时间的不一致
  • 方式2: 保证队列的可靠性,使用高可靠消息队列

生产场景中,一般会有一个搜索服务,由搜索服务去订阅商品变动的消息,来完成同步。

异步双写优点:

  • 性能高;
  • 不易出现数据丢失问题,主要基于 MQ 消息的消费保障机制,比如 ES 宕机或者写入失败,还能重新消费 MQ 消息;
  • 多源写入之间相互隔离,便于扩展更多的数据源写入。

异步双写缺点:

  • 硬编码问题,接入新的数据源需要实现新的消费者代码;
  • 系统复杂度增加,引入了消息中间件;
  • MQ是异步消费模型,用户写入的数据不一定可以马上看到,造成延时。

方案三:定期同步

为了保证 DB和ES /HBase 数据一致性,包括两个方面:

  • 增量数据一致性
  • 全量数据一致性

为了保证 DB和ES /HBase 的全量数据一致性, 往往需要进行定期的全量数据同步

数据增量数据,很少,并且,一致性要求不高,那么可以把增量数据一致性行的 同步双写、异步双写去掉。

定期同步优点:

实现比较简单

定期同步缺点:

  • 实时性难以保证
  • 对存储压力较大

当然,增量数据,可以考虑用定时任务来处理:

  1. 数据库的相关表中增加一个字段为 timestamp 的字段,任何 CURD 操作都会导致该字段的时间发生变化;
  2. 原来程序中的 CURD 操作不做任何变化;
  3. 增加一个定时器程序,让该程序按一定的时间周期扫描指定的表,把该时间段内发生变化的数据提取出来;
  4. 逐条写入到 ES 中。

方案四:数据订阅

如果要提高实时性,又要低入侵, 可以利用 MySQL 的 Binlog 来进行同步。

MySQL通过binlog订阅实现主从同步,canal Server 是一个伪装的slave节点,接收到binlog日志后,发送到MQ, 其他的 存储消费 MQ里边 的binlog日志,实现数据订阅。

架构图如下

这种方式和异步双写比较像,但是有两个优点:

  • 第一降低了商品服务的入侵性,
  • 第二数据的实时性更好。

所以使用数据订阅:

  • 优点:
    • 业务入侵较少
    • 实时性较好

至于数据订阅框架的选型,主流的大体上是这些:

Cancal Maxwell Python-Mysql-Rplication
开源方 阿里巴巴 Zendesk 社区
开发语言 Java Java Python
活跃度 活跃 活跃 活跃
高可用 支持 支持 不支持
客户端 Java/Go/PHP/Python/Rust Python
消息落地 Kafka/RocketMQ 等 Kafka/RabbitNQ/Redis 等 自定义
消息格式 自定义 JSON 自定义
文档详略 详细 详细 详细
Boostrap 不支持 支持 不支持

注意,尼恩的100Wqps三级缓存组件架构实操中,也介绍了,这种架构,存在秒级延迟。

如果不允许有秒级延迟的场景,不能使用这种架构。

具体请参见 尼恩的100Wqps三级缓存组件架构实操。

方案五:etl 工具

MySQL同步到Redis、MySQL同步到hbase、MySQL同步到es、或机房同步、主从同步等,都可以考虑使用elt工具。

什么是etl 工具呢?

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

常用的etl工具有: databus、canal (方案四用了这个组件,有etl 的部分功能)、otter 、kettle 等

下面以 databus为例,介绍一下。

Databus 是一个低延迟、可靠的、支持事务的、保持一致性的数据变更抓取系统。由 LinkedIn 于 2013 年开源。

Databus 通过挖掘数据库日志的方式,将数据库变更实时、可靠的从数据库拉取出来,业务可以通过定制化 client 实时获取变更并进行其他业务逻辑。

特点:

  • 多数据源:Databus 支持多种数据来源的变更抓取,包括 Oracle 和 MySQL。
  • 可扩展、高度可用:Databus 能扩展到支持数千消费者和事务数据来源,同时保持高度可用性。
  • 事务按序提交:Databus 能保持来源数据库中的事务完整性,并按照事务分组和来源的提交顺寻交付变更事件。
  • 低延迟、支持多种订阅机制:数据源变更完成后,Databus 能在毫秒级内将事务提交给消费者。同时,消费者使用D atabus 中的服务器端过滤功能,可以只获取自己需要的特定数据。
  • 无限回溯:对消费者支持无限回溯能力,例如当消费者需要产生数据的完整拷贝时,它不会对数据库产生任何额外负担。当消费者的数据大大落后于来源数据库时,也可以使用该功能。

再看看 Databus 的系统架构。

Databus 由 Relays、bootstrap 服务和 Client lib 等组成,Bootstrap 服务中包括 Bootstrap Producer 和 Bootstrap Server。

  • 快速变化的消费者直接从 Relay 中取事件;
  • 如果一个消费者的数据更新大幅落后,它要的数据就不在 Relay 的日志中,而是需要请求 Bootstrap 服务,返回的将会是自消费者上次处理变更之后的所有数据变更快照。

开源地址:https://github.com/linkedin/databus

说在最后

数据一致性的方案,是非常常见的面试题。

以上的5大方案,如果大家能对答如流,如数家珍,基本上 面试官会被你 震惊到、吸引到。

最终,让面试官爱到 “不能自已、口水直流”。 offer, 也就来了。

学习过程中,如果有啥问题,大家可以来 找 40岁老架构师尼恩交流。

本文题目以及参考答案,收入咱们的 《尼恩Java面试宝典》V70版本,可以找尼恩领取

参考文献:

清华大学出版社 《尼恩 Java 高并发核心编程 卷2 加强版

4000页《尼恩Java面试宝典

[1]. https://www.infoq.cn/article/1afyz3b6hnhprrg12833

[2].https://www.iamle.com/archives/2900.html

[3].https://blog.51cto.com/lianghecai/4755693

[4].https://qinyuanpei.github.io/posts/1333693167/

[5].https://github.com/alibaba/canal/wiki/ClientAdapter

技术自由的实现路径:

实现你的 架构自由:

吃透8图1模板,人人可以做架构

10Wqps评论中台,如何架构?B站是这么做的!!!

阿里二面:千万级、亿级数据,如何性能优化? 教科书级 答案来了

峰值21WQps、亿级DAU,小游戏《羊了个羊》是怎么架构的?

100亿级订单怎么调度,来一个大厂的极品方案

2个大厂 100亿级 超大流量 红包 架构方案

… 更多架构文章,正在添加中

实现你的 响应式 自由:

响应式圣经:10W字,实现Spring响应式编程自由

这是老版本 《Flux、Mono、Reactor 实战(史上最全)

实现你的 spring cloud 自由:

Spring cloud Alibaba 学习圣经》 PDF

分库分表 Sharding-JDBC 底层原理、核心实战(史上最全)

一文搞定:SpringBoot、SLF4j、Log4j、Logback、Netty之间混乱关系(史上最全)

实现你的 linux 自由:

Linux命令大全:2W多字,一次实现Linux自由

实现你的 网络 自由:

TCP协议详解 (史上最全)

网络三张表:ARP表, MAC表, 路由表,实现你的网络自由!!

实现你的 分布式锁 自由:

Redis分布式锁(图解 - 秒懂 - 史上最全)

Zookeeper 分布式锁 - 图解 - 秒懂

实现你的 王者组件 自由:

队列之王: Disruptor 原理、架构、源码 一文穿透

缓存之王:Caffeine 源码、架构、原理(史上最全,10W字 超级长文)

缓存之王:Caffeine 的使用(史上最全)

Java Agent 探针、字节码增强 ByteBuddy(史上最全)

实现你的 面试题 自由:

4000页《尼恩Java面试宝典 》 40个专题

获取11个技术圣经PDF:

不愧是阿里“扫地僧”内部“SpringCloudAlibaba学习笔记”这细节讲解太细了!

SpringCloud Alibaba 为什么会出现?

Spring Cloud Netflix 项目进入维护模式,Spring Cloud Netflix 将不再开发新的组件,我们知道Spring Cloud 版本迭代算是比较快的,因而出现了很多中岛的 ISSUE 都来不及 Fix 就又推另一个 Release 了 。进入维护模式意思就是目前已知以后一段时间 Spring Cloud Netflix 提供的服务和功能就这么多了, 不再开发性的组件和功能了。 以后将以维护和 Merge 分支 Full Requset 为主。换句话说:就是SpringCloud的技术栈不再完整了!此时,我们就有必要寻找一个新的完整的技术栈。

SpringCloud Alibaba 什么是?

Spring-Cloud-Alibaba项目由阿里巴巴的开源组件和多个阿里云产品组成,旨在实现和公开众所周知的Spring框架模式和抽象,为使用阿里巴巴产品的Java开发者带来Spring-Boot和Spring-Cloud的好处。

SpringCloud Alibaba 能干什么?

  • 服务限流降级:默认支持 Servlet、Feign\\
    RestTemplate、Dubbo、和RocketMQ 限流降级功能的接入,可以在运行时通过控制台实时修改限流降级骨子额,还支持查看限流降级 Metrics 控制。
  • 服务注册于发现:适配 Spring Cloud 服务注册于发现标准,默认集成 Ribbon 支持
  • 分布式配置管理:支持分布式系统中的外部话配置,配置更改时自动刷新。
  • 消息驱动能力:基于Spring Cloud Stream 为微服务应用构建消息驱动能力。
  • 阿里云对象存储:阿里云提供的海量、安全、低成本、高可靠的云存储服务。支持在任何应用,任何时间、任何低调存储和访问任意类型的数据。
  • 分布式任务调度:提供秒级、精准、高可靠、高可用的定时(基于 Cron 表达式)任务调度服务。同时提供分布式的任务执行模型,如网格任务,网格任务支持海量任务均匀分配到所有 Worker (schedulerx-client) 执行。

为什么要学习SpringCloud Alibaba

Spring Cloud Alibaba为分布式应用开发提供了一站式解决方案。它包含开发分布式应用程序所需的所有组件,可以轻松地使用Spring Cloud开发应用程序。

使用Spring Cloud Alibaba,只需添加一些注解和少量配置,即可将Spring Cloud应用连接到Alibaba的分布式解决方案中,并使用Alibaba中间件构建分布式应用系统。

正是基于这些原因,我们有必要来学习SpringCloud Alibaba技术。

那如何学习呢?市面上对于SpringCloud Alibaba讲解的资料零零碎碎,根本不成完整体系;去官网学习又无从下手,饱受打击。因此我将在这分享我精心收集整理的《SpringCloudAlibaba学习笔记》从入门到入魂

此笔由阿里大佬编写只流传于内部,几经波折终于到手,我已看完小半部分,确实不错特意在此分享,回馈小伙伴。这份笔记究竟写了些什么?下面我们一起来看看

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

Spring-Cloud-Alibaba脑图

Ps:由于内容较多,本次将展示部分,如果看得不过瘾想更加深入地了解本笔记彻底掌握S pring Cloud Alibaba可在文末了解详情

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

模块一 微服务架构设计: 本模块主要介绍了什么是微服务体系结构,以及微服务体系结构设计中的一些常见问题。

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

模块二 Nacos 服务治理:Nacos注册中心是整个微服务体系结构的核心。本文将详细介绍Nacos的安装、使用和集群构建过程,并以图文的形式介绍Nacos服务发现的基本原理。

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

模块三 系统保护:Sentinel是Alibaba提供的服务保护中间件。使用sentinel可以有效地防止分布式体系结构的系统崩溃。在此阶段,我们将解释Sentinel在限流、熔断、代码控制等方面的最佳实践。

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

模块四 高级特性:在这一阶段,我们将介绍SpringCloudAlibaba提供的许多高级功能。例如:配置中心、链路跟踪、性能监控、分布式事务、消息队列等。我们将从应用介绍到原理分析,逐一讲解这些技术。

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

模块五 微服务通信:当服务需要相互通信时,springcloudAlibaba支持RPC和restful解决方案。相应的产品是Dubbo和openfeign。在这个阶段,我将给出这些组件的最佳实践和原理分析。

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

模块六 微服务架构最佳实践:这阶段,我将拿出自己的私藏干货,为大家讲解微服务架构的综合应用和项目实践。在这里我们将接触到Seata分布式事务架构、多级缓存设计、老项目升级策略!

不愧是阿里内部“SpringCloudAlibaba学习笔记”这细节讲解,神了

总结

Spring Cloud Netflix 项目进入维护模式,将不再开发新的组件,SpringCloud性能上不 能满足互联企业的发展需求。但互联网发展又迫切需要解决微服务的方案,因此龙头企业阿里应运而生推出了Spring Cloud Alibaba新一代的微服务架构解决方案。

如果你还没有掌握这套主流技术,现在想要在最短的时间里吃透它,一键三连(点赞+收藏+关注)来获取这套完整的体系资料。

以上是关于淘宝太细了:mysql 和 es 的5个一致性方案,你知道吗?的主要内容,如果未能解决你的问题,请参考以下文章

Android开发面试:requestLayout() 这么问,面试者直呼:太细了!

不愧是阿里“扫地僧”内部“SpringCloudAlibaba学习笔记”这细节讲解太细了!

写的太细了!Spring MVC拦截器的应用,建议收藏再看!

探究 | Elasticsearch不支持事务有什么好的弥补方案吗?

css学习五

淘宝面试常见问题