NewSQL分布式数据库发展策略讨论

Posted 2023-05-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NewSQL分布式数据库发展策略讨论相关的知识，希望对你有一定的参考价值。

参考技术A

作者石默研

本文对新一代NewSQL分布式数据库发展策略中的普遍困扰进行讨论，包括云原生（Cloud Native）与本地部署(On Premise)、HTAP进展方向、分布式与单机需求等分布式数据库商业与技术发展中难以决策的问题。

1. 困扰

分布式NewSQL数据库近年来蓬勃兴起，其原因显而易见：切中了业务与数据量不断增长的用户对关系型数据库RDBMS需求，这在传统RDBMS到大数据的发展阶段中，有相当一段时间是空白。同时，随着互联网技术的不断发展与普及，用云计算模式满足IT需求似乎已经成为未来社会产业互联网发展的明确趋势，也就是说，有一种共识：不久的将来，绝大多数产业的IT服务是从公共的、行业的或者私有的、混合的云计算中心提供的。这一共识又带来了云原生（Cloud Native）概念与技术的兴起，而分布式NewSQL数据库自然也应该是云原生的，这决定了其相当多的产品设计决策应以符合这一趋势为原则。然而，在当今的现实中，满足业务与数据量不断增长的RDBMS需求的用户，与云原生的用户，除了互联网企业外，大多数情况下，并不重合，需要On-Premise部署的用户仍然占有很大比重，这就带来了第一个困扰：云原生（Cloud Native）与本地部署(On Premise)对产品发展要求的矛盾。

另一个困扰，是关于HTAP，即交易与分析混合负载。HTAP是当今非常火的一个概念与技术，在交易库上直接进行分析，而不再是将“数据从交易库搬下来，挪到另一个数据库中去”这样的繁琐过程。可以毫不夸张的说：历史上规模性企业IT复杂度的相当一部分，都来自于“搬数据”，这导致了数据采集、实时采集、全增量合并、数据传输、数据加载、数据建模、数据质量、数据标准、企业级元数据管理等繁杂多样的技术环节的产生，导致了企业数据分布、数据流向、数据模型、主数据、基础数据平台、ODS/数据仓库/数据集市、数据治理等复杂的数据架构设计优化领域，导致了由于多系统大规模数据搬迁而带来的如数据交换平台之类的复杂调度工程......。咋眼一看，感觉该企业的数据技术好厉害，相关各领域的技术产品好丰富，技术人员的相关技能也好受欢迎。但如果在交易库就能直接满足分析需求而不影响生产效能的话，这些复杂高级的技术环节不都成了“自己给自己造了一座山，还说自己爬的好辛苦”？然而，现实却是，问题并不这么简单，除了在交易库中进行分析会影响业务效能外，还有很多原因导致这一现象产生：交易库并不需要存储那么长的历史数据，而分析往往是需要建立在大量历史数据之上的；交易库的模型往往并不适合分析需求，多数情况下需要重要建模，如非常流行且价值不菲的各行业数仓主题模型；用于交易的OLTP数据库与用于分析的OLAP数据库，其技术体系完全不同；以及大型企业已固化的内部业务结构并没有留给交易/分析整合可实施的可行空间......等等。由于，历史积累的企业级数据体系相当复杂，HTAP的发明者迄今为止都没有系统表达完全替代数据分析需求、自顶而下重构企业数据体系的架构级策略，而是将产品重点定位在技术优化层面：在交易库上直接完成实时统计分析，满足高并发需求且不影响业务效能；或者是为实时分析统计/查询而建设的数据服务中间平台。然而，即使是暂时没有这种策略性的意向，在面向AP的产品具体研发中，又会发现明确的界限确实不好把握，随着一个个具体功能的不断完善，似乎假以时日，技术上也不是没有完全替代纯OLAP平台的可能性。那么，HTAP究竟如何定位呢？

再者就是规模化的分布式需求，与小规模的单机数据库需求（这里指逻辑上的单机）之间的矛盾：分布式数据库，自然而然是要应对规模化的数据管理需求的，长尾的小规模需求当然不应在产品设计考虑之列，同时，大炮轰苍蝇经常还打不好；然而，分布式NewSQL数据库又应该是云原生的，如果把云原生的业务含义理解为“全自助”，它应该以支持什么样的需求为主呢？现实看来，小规模长尾业务对云原生数据库的需求最起码应该是占据相当大的比重的。显而易见，如果是大规模的数据管理需求，即使是部署在云上，DBPaaS的“全自助”是其核心需求吗？这种规模化的业务，如果是云上的On-Premise又需要做出哪些方面的改变？从互联网与云计算发展的历史来看，“云自助”，其最核心的商业动机当然包括给用户侧的运维带来了方便，但更重要的可能是给云服务运营商应对海量长尾客户的安装与运维带来了极大的成本优势。这正如银行的小微及个人消费贷款都要走互联网线上模式，而重客、大客甚至中小企业信贷仍然是以线下为主的策略一样，本质是成本问题，而不是客户方便性问题。于是，矛盾显而易见：分布式是面向规模客户的，起码是中、大型客户，而云原生却有可能、最起码相当一段时间内是要以长尾客户为主要服务对象的。

以上困扰实质上，都涉及到了NewSQL分布式数据库的产品发展策略问题。

2. 讨论

问题是客观而又普遍的，但分析与应对策略往往包含主观因素：人们的一个决定与决策，很多情况下并不由严格推理而来，而是心中已经有一个答案，再来找理由支持它。这里的讨论或许也并不能例外。

首先，来看看Cloud Native与On Premise。云原生本应是数据库即服务，然而目前真正有规模化数据增长需求的NewSQL应用相当多的情况下却是付费On Premise与免费On Premise区别，很多互联网企业的应用也可能只是部署在云基础设施上而已，真正的云原生更多是一些实验性、尝试性的需求。但云原生数据库在公有云、行业云以及大型私有云上已经逐渐在形成一种意识上的共识，其商业前景不可限量。也就是说，未来的数字化转型进程中，产业互联网的数据库部署，会逐渐向云基础设施迁移，长在云上。它可能是公有云，也可能是行业云，也可能是私有云，它们都是被定义为云原生NewSQL数据库的市场范围。当然，肯定还会有相当一部分数据库长在云下，这也不用纠结，将其排除在云原生市场战略目标之外即可，就是说，不需要考虑这部分客户需求对产品规划的影响，因为前一部分的份额已经足够大了。这样看来，以云原生为目标进行产品规划的逻辑没有问题，不过，还是要明确一点：长在云上的数据库是不是一定符合我们对“云原生”的既有理解？这里认为，即使未来，在云上形成了产业互联网数据库市场的主体，需要“全自助”的数据库即服务可能也是以面向长尾客户最为迫切、必不可少并且是核心本质，而对中大型以上的需求，“全自助”的意义相对有限，同时比较而言商业模式的转变或者更关键些。那么，如果是以“长在云上”为市场目标，似乎可以将其定义为“广义的云原生”，同时，只要是“长在云上”，那么“云原生”概念中高弹性、高可用、低成本、快速迭代、存算分离等技术优势也都能方便获得。而对“云原生”策略中“云原生”一词的理解不同，对产品规划决策的影响也应该有所不同：一是目前被认为是On Premise的客户需求，或许也就是未来“云原生”主体市场的需求；二是NewSQL数据库关于云原生服务的产品策划，对用户侧“自助”水平的决策或许可以更灵活实用。高水平自助确实可以减轻客户对IT的依赖程度，但这里认为，云原生与用户自行在云上购买资源进行On-Premise部署相比，最关键的价值在于商业模式的改变，能自助多少，不一定是最重要的，因为成为云服务商后，运营运维的工作只会更多，责任可能会更大，甚至有时连IaaS的运维也需要PaaS服务商兜底。但从一个个客户的本地服务，变成集中化云服务，就已经是本质性的模式转变了。总之，需要就事论事，回到原点，仔细分析后决策，而不是用概念教条的判断，因为概念本身的定义并不见得准确对应实际的业务需求。

再来看看HTAP，对这个问题，正如在其它文章中表达过的一样，本文的观点较为明确。一是随着计算能力与架构的升级，从技术上讲，AP与TP的界限会越来越模糊；另外特别是在云原生的新世界里，数据库的这一特性又犹为重要，因为云原生的重要作用之一就是要让客户尽量摆脱对IT运维的依赖，将越来越多的精力集中到自己的业务发展上来；同时端到端的能力提升对云原生商业模式的贯彻也至关重要（需要仔细分析下目前DBPaaS的技术要求是否完全符合这一原点的、本质性的动力），过去与纯OLAP数据库的优势比较纠结在这里也可以得到正面支持；再者，既然架构上已经走向了AP，就很难做到在产品规划上时刻厘清纯AP与混合负载的需求后，再将前者排除在外。于是，以“混合负载满足部分AP需求”应该是由于投入与阶段性市场策略导致的阶段性产品规划，而长远来讲，以一套技术架构满足大多数需求，应该是云原生NewSQL数据库的追求。

接下来，就是关于规模化分布式与小规模单机需求的矛盾了。现在看来，经过上面的讨论，这一点已经不是什么问题了：因为“长在云上”、从分散服务向集中服务的商业模式转变就是指广义的云原生，而不一定要以小微的、迫切需要全自助的长尾为主流，那么，云原生NewSQL数据库仍然应以规模化分布式为其主体的需求方向，而小规模单机则暂时可以不做为重点来考虑。

最后指出一点，希望也能引发进一步的思考：我们所批判的主机，也声称自己是分布式架构，暂且不论其是否客观，但在现实中主机需要被替代的核心问题并不是有没有分布式，而是：一、扩展不灵活带来成本问题：“我只需要扩展一个节点，你却让我再买一台主机”；二、不自主可控；三、往往是软硬件结合的设计策略，包括内存、网络、存储与IO上的软硬融合设计，而这一点，是否需要云原生数据库从广义的定义出发进行学习参考，也是需要进一步讨论的。

从NoSQL到NewSQL，谈交易型分布式数据库建设要点

在上一篇文章《从架构特点到功能缺陷，重新认识分析型分布式数据库》中，我们完成了对不同“分布式数据库”的横向分析，本文Ivan将讲述拆解的第二部分，会结合NoSQL与NewSQL的差异，从纵向来谈谈OLTP场景“分布式数据库”实现方案的关键技术要点。本文既是前文的延伸，同时也算是分布式数据库专题文章的一个总纲，其中的要点Ivan之后也会单独撰文阐述。

特别说明：本文是原创文章，首发在DBAplus社群，转载须获得作者同意。

一、NewSQL & NoSQL

NewSQL是本专题关注的重点，也是前文中特指的“分布式数据库”，其适用于OLTP场景，具有高并发低延迟的特点，特性接近Oracle/DB2等传统数据库，依赖通用X86服务器实现性能上的水平拓展，能够扛住海量交易的性能压力。

目前具有较高知名度的NewSQL有Google的Spanner / F1、阿里的OceanBase、CockroachDB、TiDB。其中后两者是正在成长中的开源项目，2018年相继发布了2.0版本。

NewSQL与NoSQL有很深的渊源，所以下文在对NewSQL的介绍中会穿插一些NoSQL对应的实现技术方式。

1.存储引擎

B+ Tree

B+树是关系型数据库常用的索引存储模型，能够支持高效的范围扫描，叶节点相关链接并且按主键有序，扫描时避免了耗时的遍历树操作。B+树的局限在于不适合大量随机写场景，会出现“写放大”和“存储碎片”。

以下借用姜承尧老师书中的例子[1]来说明B+树的操作过程↓

存在高度为2的B+树，存储在5个页表中，每页可存放4条记录，扇出为5。下图展示了该B+ Tree的构造，其中略去了叶子节点指向数据的指针以及叶子节点之间的顺序指针：

B+树由内节点（InterNode）和叶节点（LeafNode）两类节点构成，后者携带指向数据的指针，而前者仅包含索引信息。

当插入一个索引值为70的记录，由于对应页表的记录已满，需要对B+树重新排列，变更其父节点所在页表的记录，并调整相邻页表的记录。完成重新分布后的效果如下：

变更过程中存在两个问题：

写放大

本例中，逻辑上仅需要一条写入记录（黄色标注），实际变动了3个页表中的7条索引记录，额外的6条记录（绿色标注）是为了维护B+树结构产生的写放大。

注：写放大（Write Amplification）：Write amplification is the amount of data written to storage compared to the amount of data that the application wrote，也就是说实际写入磁盘的数据大小和应用程序要求写入数据大小之比

存储不连续

新增叶节点会加入到原有叶节点构成的有序链表中，整体在逻辑上是连续的；但磁盘存储上，新增页表申请的存储空间与原有页表很可能是不相邻的。这样，在后续包含新增叶节点的查询中，将会出现多段连续读取，磁盘寻址的时间将会增加。进一步来说，在B+Tree上进行大量随机写会造成存储的碎片化。

在实际应用B+Tree的数据库产品（如MySQL）中，通常提供了填充因子（Factor Fill）进行针对性的优化。填充因子设置过小会造成页表数量膨胀，增大对磁盘的扫描范围，降低查询性能；设置过大则会在数据插入时出现写扩大，产生大量的分页，降低插入性能，同时由于数据存储不连续，也降低了查询性能。

LSM-Tree

LSM-Tree（Log Structured-Merge Tree）由Patrick O\'Neil首先提出，其在论文[2]中系统阐述了与B+树的差异。而后Google在Bigtable中引入了该模型，如下图所示：

LSM-Tree的主要思想是借助内存将随机写转换为顺序写，提升了写入性能；同时由于大幅度降低了写操作对磁盘的占用，使读操作获得更多的磁盘控制权，读操作性能也并未受到过多的影响。

写操作简化过程如下：

当写入请求到达时，首先写入内存中Memtable，处理增量数据变化，同时记录WAL预写日志；
内存增量数据达到一定阈值后，当前Memtable会被冻结，并创建一个新的Memtable，已冻结的Memtable中的数据会被顺序写入磁盘，形成有序文件SSTable（Sorted String Table），这个操作被称为Minor Compaction（在HBase中该操作称为Flush操作，而Minor Compaction有其他含义）；
这些SSTable满足一定的规则后进行合并，即Major Compaction。每个Column Family下的所有SSTable被合并为一个大的SSTable。

该模型规避了随机写的IO效率问题，有效缓解了B树索引的写放大问题，极大的提升了写入效率。

NoSQL广泛使用了LSM-Tree模型，包括HBase、Cassandra、LevelDB、RocksDB等K/V存储。

当然LSM-Tree也存在自身的缺陷：

首先，其Major Compaction的操作非常重影响联机读写，同时也会产生写放大。因为这个原因，HBase的使用中通常会禁止系统自动执行Major Compaction。

注释：

Major Compaction操作的意义是降低读操作的时间复杂度。设系统包含多个SSTable文件，共有N数据，SSTable平均包含m数据。

执行读操作时，对单一SSTable文件采用折半查找方法的时间复杂度为O(log2m)，则整体时间复杂度为O(N/m* log2m)；合并为一个SSTable后，时间复杂度可降低到O(log2N)

其次是对读效率的影响，因为SSTable文件均处于同一层次，根据批量写的执行时序形成若干文件，所以不同文件中的Key（记录主键）会出现交叉重叠，这样在执行读操作时每个文件都要查找，产生非必要的I/O开销。
最后是空间上的放大（Space Amplification），最坏情况下LSM Tree需要与数据大小等同的自由空间以完成Compact动作，即空间放大了100%，而B+树的空间放大约为1/3。

Leveled LSM Tree

Leveled LSM Tree 的变化在于将SSTable做了进一步的分层，降低写放大的情况，缩小了读取的文件范围，在LevelDB 中率先使用，随后Cassandra 1.0也引入了该策略[3]。

SSTable的层次化设计策略是：

单个SSTable文件大小是固定的，在Cassandra中默认设置为5M；
层级从Level 0开始递增，存储数据量随着层级的提升而增长，层级之间有一致的增长系数（Growth Factor）。Cassandra中Growth Factor设置为10，Level 1文件为1-10M则Level 2 文件为10-100M，这样10TB数据量会达到Level 7；
Level 0的SSTable比较特殊，固定为4个文件，且文件之间存在Key交叉重叠的情况，从Level 1开始，SSTable不再出现Key交叉情况；
Level 0层的SSTable超过容量大小时，向Level 1 Compaction，因为存在Key交叉，所以要读取Level 0的所有SSTable；当Level 1 的文件大小超过阈值时，将创建Level 2的SSTable并删除掉Level 1原有的SSTable；当Level 1的Key范围对应Level 2的多个SSTable时，要重写多个SSTable，但由于SSTable的大小固定，所以通常只会涉及少数的SSTable。

Level间Compact操作

多个有序的SSTable，避免了Major Compaction这样的重量级文件重写，每次仅更新部分内容，降低了写放大率。

对于读取元数据来锁定相关的SSTable，效率显然超过了对所有SSTable的折半查找和Bloom Filter。因此，读取效率得到了显著提升，按照某种评估方式[3]，在每行数据大小基本相同的情况下，90%的读操作仅会访问一个SSTable。

该策略下，Compaction的操作更加频繁，带来了更多I/O开销，对写密集型操作而言，最终结果是否能够得到足够的效率提升存在不确定性，需要在应用中权衡。

NewSQL的策略

NewSQL 数据库的存储层普遍都采用K/V存储，所以基本沿用了LSM Tree模型。其中CockroachDB和TiDB都在KV层使用RocksDB。OceanBase采用了不同的方法规避Major Compaction的影响，大体是利用闲置的副本（Follower）进行Compaction操作，避免了对读操作的阻塞，在Compaction完成后，进行副本的角色的替换。

同时，K/V存储引擎仍然在继续发展中，一些其他的改进如分形树(Fractal Tree)等，限于篇幅我们就不在此展开了。

2.分片

分片（Sharding）概念与RDBMS的分区相近，是分布式数据库或分布式存储系统的最关键特性，是实现水平扩展的基础，也在NoSQL类系统中得到了大量运用。

分片的目标是将数据尽量均匀地分布在多个节点上，利用多节点的数据存储及处理能力提升数据库整体性能。

Range&Hash

虽然不同的系统中对分片策略有很多细分，但大致可以归纳为两种方式，Range和Hash。

Range分片有利于范围查询，而Hash分片更容易做到数据均衡分布。在实际应用中，Range分片似乎使用得更多，但也有很多应用会混合了两种分片方式。

HBase采用了Range方式，根据Rowkey的字典序排列，当超过单个Region的上限后分裂为两个新的Region。Range的优点是数据位置接近，在访问数据时，范围查找的成本低；缺点也比较明显，在容易出现热点集中的问题。

例如，在HBase通常不建议使用业务流水号作为RowKey，因为连续递增的顺序号在多数时间内都会被分配到同一个RegionServer，造成并发访问同时竞争这个RegionServer资源的情况。为了避免该问题，会建议将RowKey进行编码，序号反转或加盐等方式。这种方式实质上是使用应用层的设计策略，将Range分片转换成类似Hash分片的方式。

Spanner的底层存储沿用了BigTable的很多设计思路，但在分片上有所调整，在Tablet内增加了Directory的动态调配来规避Range分片与操作热点不匹配的问题，后续在事务管理部分再详细描述。

静态分片&动态分片

按照分片的产生策略可以分为静态分片和动态分片两类。

静态分片在系统建设之初已经决定分片的数量，后期再改动代价很大；动态分片是指根据数据的情况指定的分片策略，其变更成本较低，可以按需调整。

传统的DB + Proxy方案，进行水平分库分表就是一种常见的静态分片。我们熟知的几个互联网大厂在大规模交易系统中都进行过类似的设计，默认将数据做成某个固定数量的分片，比如100、255、1024，或者其它你喜欢的数字。分片的数量可以根据系统预期目标的整体服务能力、数据量和单节点容量进行评估，当然具体到 100片合适还是1024片合适，多少还是有拍脑袋的成分。

在NoSQL中，Redis集群也采用同样的静态分片方式，默认为16384个哈希槽位（等同于分片）。

静态分片的缺点是分片数量已经被确定，基于单点处理能力形成一个容量的上限；灵活性较差，后续再做分片数量调整时，数据迁移困难，实现复杂。优点也很明显，静态分片的策略几乎是固化的，因此对分区键、分区策略等元数据管理的依赖度很低，而这些元数据往往会形成分布式数据库中的单点，成为提升可靠性、可用性的障碍。

相比之下，动态分片的灵活性更好，适用于更丰富的应用场景，所以NewSQL也主要采用动态分片方式，代价则是对元数据管理的复杂度增加。

在分片处理上，NoSQL与NewSQL面临的问题非常接近。

3.副本

首先是由于通用设备单机可靠性低，必须要通过多机副本的方式。本文中关注两个问题：一是副本一致性；二是副本可靠性与副本可用性的差异。

数据副本一致性

多副本必然引入了副本的数据一致性问题。之前已经有大名鼎鼎的CAP理论，相信大家都是耳熟能详了，但这里要再啰嗦一句，CAP里的一致性和事务管理中的一致性不是一回事。Ivan遇到过很多同学有误解，用CAP为依据来证明分布式架构不可能做到事务的强一致性，而只能是最终一致性。

事务的一致性是指不同数据实体在同一事务中一起变更，要么全部成功，要么全部失败；而CAP中的一致性是指原子粒度的数据副本如何保证一致性，多副本在逻辑上是同一数据实体。

副本同步大致归纳为以下三种模式：

强同步：即在多个副本都必须完成更新，数据更新才能成功。这种模式的问题是高延时、低可用性，一次操作要等待所有副本的更新，加入了很多网络通讯开销，增加了延时。多个副本节点必须都正常运行的情况下，整个系统才是可用的，任何单点的不可用都会造成整个系统的不可用。假设单点的可用性是95%，则三个节点的构成的多副本，其可靠性为95% * 95% * 95% = 85.7%。因此虽然Oracle/MySQL等主流数据库都提供了强同步方式，但在企业实际生产环境中很少有应用。
半同步：MySQL提供了半同步方式，多个从节点从主节点同步数据，当任意从节点同步成功，则主节点视为成功。这个逻辑模型有效规避了强同步的问题，多节点可用性的影响从“与”变为“或”，保障了整体的可用性。但遗憾的是在技术实现上存在瑕疵，会有退化为异步的问题。
Paxos/Raft：该方式将参与节点划分为Leader/Follower等角色，主节点向多个备节点写入数据，当存在一半以上节点写入成功，即返回客户端写入成功。该方式可以规避网络抖动和备节点服务异常对整体集群造成的影响。其他像Zookeeper的ZAB协议，Kafka的ISR机制，虽然与Paxos/Raft有所区别，但大致是一个方向。

副本可靠性与副本可用性

数据副本仅保证了数据的持久性，即数据不丢失。我们还面临着副本的可用性问题，即数据是否持续提供服务。以HBASE-10070为例来说明这个问题：

HBase通过分布式文件系统HDFS实现了数据多副本的存储，但是在提供服务时，客户端是连接到RegionServer进而访问HDFS上的数据。因为一个Region会被唯一的RegionServer管理，所以RegionServer仍然是个单点。

在 RegionServer宕机时，需要在一定的间隔后才被HMaster感知，后者再调度起一个新的RegionServer并加载相应的Region，整个过程可能达到几十秒。在大规模集群中，单点故障是频繁出现的，每个单点带来几十秒的局部服务中断，大大降低了HBase的可用性。

为了解决这问题，HBase引入从RegionServer节点的概念，在主节点宕机时，从节点持续提供服务。而RegionServer并不是无状态服务，在内存中存储数据，又出现了主从RegionServer间的数据同步问题。

HBase实现了数据的可靠性，但仍不能充分实现数据的可用性。CockroachDB和TiDB的思路是实现一个支持Raft的分布式KV存储，这样完全忽略单节点上内存数据和磁盘数据的差异，确保数据的可用性。

4.事务管理

分布式事务处理由于其复杂性，是NoSQL发展中最先被舍弃的特性。但由于大规模互联网应用广泛出现，其现实意义逐渐突出，又重新成为NewSQL无法规避的问题。随着NewSQL对事务处理的完善，也让过去十余年数据库技术的演进终于实现了一个接近完整的上升螺旋。

鉴于分布式事务管理的复杂性，Ivan在本文中仅作简要说明，后续文章中会进一步展开。

NewSQL 事务管理从控制手段上分为锁（Lock-Base）和无锁（Lock-Free）两种，其中，无锁模式通常是基于时间戳协调事务的冲突。从资源占用方式上，分为乐观协议和悲观协议，两者区别在于对资源冲突的预期不同：悲观协议认为冲突是频繁的，所以会尽早抢占资源，保证事务的顺利完成；乐观协议认为冲突是偶发的，只在可以容忍的最晚时间才会抢占资源。

以下通过最经典的“两阶段提交协议”和具体的两种应用实践，来具体阐述实现方式：

两阶段提交协议（2PC）

两阶段提交协议（Tow phase commit protocol，2PC）是经典的分布式事务处理模型，处理过程分为两个阶段：

请求阶段：

事务询问。协调者向所有参与者发送事务内容，询问是否可以执行事务提交操作，并开始等待各参与者的相应；
执行事务。各参与者节点执行事务操作，并将Undo和Redo信息记入事务日志中；
各参与者向协调者反馈事务询问的响应。如果参与者成功执行了事务操作，那么就反馈给协调者Yes，表示事务可以执行；如果参与者没有成功执行事务，那么就反馈给No，表示事务不可以执行。

提交阶段：

提交事务。发送提交请求。协调者向所有参与者节点发出Commit请求；
事务提交。参与者接到Commit后，会正式执行事务提交操作，并在完成提交之后释放在整个事务执行期间占有的事务资源；
反馈事务提交结果。参与者在完成事务提交后，向协调者发送Ack消息；
完成事务。协调者收到所有参与者反馈的Ack消息后，完成事务；
中断事务。发送回滚请求。协调者向所有参与者发出Rollback请求；
事务回滚。参与者接收到Rollback请求后，会利用其阶段一记录的Undo信息来执行事务回滚操作，并在完成回滚之后释放在整个事务执行期间占有的事务资源；
反馈事务回滚结果。参与者在完成事务回滚后，向协调者发送Ack消息；
中断事务。协调者接收到所有参与者反馈的Ack消息后，完成事务中断。

该模型的主要优点是原理简单，实现方便。

缺点也很明显，首先是同步阻塞，整个事务过程中所有参与者都被锁定，必然大幅度影响并发性能；其次是单点问题，协调者是一个单点，如果在第二阶段宕机，参与者将一直锁定。

Spanner

根据Spanner论文[4]的介绍，其分布式事务管理仍采用了2PC的方式，但创新性的设计是改变了Tablet的数据分布策略，Tablet不再是单一的连续Key数据结构，新增了Directory作为最小可调度的数据组织单元。

通过动态的调配，降低事务内数据跨节点分布的概率。

Ivan将这种事务处理的设计思想理解为：“最好的分布式事务处理方式，就是不做分布式事务处理，将其变为本地事务”。在OceanBase的早期版本中也采用了一个独立的服务器UpdateServer来集中处理事务操作，理念有相近之处。

Percolator

Percolator[5] 是Google开发的增量处理网页索引系统，在其诞生前，Google采用MapReduce进行全量的网页索引处理。这样一次处理的时间取决于存量网页的数量，耗时很长；而且即使某天只有少量的网页变更，同样要执行全量的索引处理，浪费了大量的资源与时间。采用Percolator的增量处理方式后，大幅度减少了处理时间。

在这篇论文中给出了一个分布式事务模型，是“两阶段提交协议”的变形，其将第二阶段的工作简化到极致，大幅提升了处理效率。

具体实现上，Percolator是基于BigTable实现分布式事务管理，通过MVCC和锁的两种机制结合，事务内所有要操作的记录均为新增版本而不更新现有版本。这样做的好处是在整个事务中不会阻塞读操作。

事务中的锁分为主（Primary）和从锁（Secondary），对事务内首先操作的记录对加主锁，而后对事务内的其他记录随着操作过程逐步加从锁并指向主锁记录，一旦遇到锁冲突，优先级低的事务释放锁，事务回滚；
事务内的记录全部更新完毕后，事务进入第二阶段，此时只需要更新主锁的状态，事务即可结束；
从锁的状态则依赖异步进程和相关的读操作来协助完成，由于从锁记录上保留了指向主锁记录的指针，异步进程和读操作都很容易判断从锁的正确状态，并进行更新。

分布式事务管理的其他内容，包括无锁事务控制、全局时钟的必要性等等，待后续文章中再讨论。

二、结语

本文最初的立意是面向几类典型技术背景的同学，对“分布式数据库”展开不同方向的解读，并就其中部分技术要点进行阐述，使不同技术领域的同学能够对相关技术有些许了解，为有兴趣深入研究的同学做一个铺垫。

随着分析的深入愈发觉得文章框架过于庞大难于驾驭，因而对关键技术的解读也存在深浅不一的情况。对于本文中未及展开的部分，Ivan会尽力在后续系列文章中予以补充，水平所限文中必有错漏之处，欢迎大家讨论和指正。

文献参考：

[1] 姜承尧, MySQL技术内幕：InnoDB存储引擎机, 械工业出版社, 2011

[2] Patrick O\'Neil The Log-Structured Merge-Tree

[3] Leveled Compaction in Apache Cassandra

https://www.datastax.com/dev/blog/leveled-compaction-in-apache-cassandra

[4] James C. Corbett, Jeffrey Dean, Michael Epstein, et al. Spanner: Google\'s Globally-Distributed Database

[5] Daniel Peng and Frank Dabek, Large-scale Incremental Processing Using Distributed Transactions and Notifications

以上是关于NewSQL分布式数据库发展策略讨论的主要内容，如果未能解决你的问题，请参考以下文章

从NoSQL到NewSQL，谈交易型分布式数据库建设要点

分库分表 vs NewSQL数据库

分库分表，还是NewSQL数据库?

双雄对决，分库分表 vs NewSQL数据库

分库分表 VS newsql数据库