担心数据库性能，念念不忘分库分表怎么办？

Posted 2021-04-25 AWS 架构师之旅

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了担心数据库性能，念念不忘分库分表怎么办？相关的知识，希望对你有一定的参考价值。

在上篇《》中，我们探讨了大规模缓存服务的架构设计和客户实践，那这篇我们来说说数据库的分库分表，跟很多客户的数据库和开发团队对话的时候，总是反复提及，我想在大型交易系统中关系数据库的性能线性扩展至关重要；譬如刚刚结束的 2019年的双11，黑五年度大促，人为创造的购物狂欢的背后，是技术人提前半年甚至一年的 Gameday 准备，大促期间彻夜无眠的默默守护，其中最让人揪心和担心的就是后台承担落地业务成绩的关系数据库。

自从1979年诞生第一个商业版关系数据库产品以来，它的设计范式，ACID 的事务特性，SQL 查询语言等等，都经受住了时间的考验，到目前依旧是现代互联网应用IT基础设施的基石之一；数十年来，对关系数据库进行扩容并同时保持容错、高性能和较小的爆炸半径（发生故障的影响）一直是数据库管理人员的持续挑战；在2017年AWS的reinvent大会上，《ARC406: Amazon.com Replacing 100s of Oracle DBs with Just 1 DynamoDB》来自亚马逊电商的资深开发人员介绍到，扩展和运维分库分表的关系数据库非常“痛苦”，这项工作，要求有专门的系统和数据库管理员全神贯注的一项劳动密集型型工作；

我们先看看披露出来的亚马逊电商订单分布式工作流系统 Herd 的关系数据库扩展历史，刚开始 3个库还好，过了两年到十几个库，再过了几年增长到100+ 个库，在有一年的 Prime day 大促的时候，该系统的横向拆分出来的数据库最多扩大到 1000个；想想头就大，扩展一个新的数据库，要准备机器，创建数据库秘钥，创建表，优化数据库参数，创建新的服务，获取链接信息，更新应用配置，准备负载均衡，定义新的报警，功能测试，性能测试，最后还要对应用尽量透明无缝进行分片；还没算上运维代价，系统补丁，数据库补丁和升级，索引重构，问题排查（比如为什么有的库比较慢？），硬件故障，这的确是一盘需要“精心照顾”的菜（方案）。

亚马逊电商案例表明分库分表可以解决传统关系数据库扩展性问题但同时也带来了痛苦的应用改造、运维、排错等繁重容易出错的大量工作负担，我们还有其他选择吗？那我们回归初心，现代化应用程序对底层支撑服务的诉求是什么？亚马逊全球首席技术官 Werner 博士在他的博客中总结了现代化应用程序需要关注三点基础设施的的特性：

从小规模起步，到大规模增长，数据库等基础设施不应该限制业务发展速度。
在大型系统中，故障属于客观常态，而非异常；发生组件或系统故障时，客户的应用有能力做隔离。
故障的爆炸半径要小，恢复时间要短；没有人希望单一的系统故障对他们的业务产生巨大影响。

应用视角看数据库扩展和性能优化场景

读写分离

读写分离，是使用最广泛的优化策略之一；为了满足主库的写性能的要求，尽量将读的请求从主库剥离开来，同时，利用数据库的主从策略，可以提供一个主库的故障自动切换，切换时间取决于判断故障的时间，前端应用如何无感切换，数据同步延迟等；在下面的分库环节，我们再继续深入下微服务架构体系下常见的数据模式 CQRS（Command QueryResponsibility Segregation）命令查询分离，是读写分离的进一步演进；