阿里云的自研InfluxDB集群方案剖析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阿里云的自研InfluxDB集群方案剖析相关的知识,希望对你有一定的参考价值。

参考技术A 本文将以阿里云在GIAC的分享《云原生InfluxDB高可用架构设计》为例,剖析阿里云的自研InfluxDB集群方案的当前实现,在分析中会尽量聚焦的相对确定的技术、架构等,考虑到非一线信息,在个别细节上难免存在理解偏差,欢迎私聊讨论:

0x0 初步结论

目前是一个过渡性质的公测方案,具备数据一致性,但接入性能有限,缺乏水平扩展能力。缺乏自定义副本数和水平扩展等能力,通过Raft或Anti-entroy提升了数据的可靠性,但受限于节点和副本的强映射,集群接入性能有限,约等同于单机接入性能,另外,基于时序分片和分布式迭代器等核心功能未提及,可能仍在预研中。

0x1 集群方案剖析

1. 背景补充:InfluxDB是DB-Engines上排名第一的TSDB,针对时序数据多写、少读、成本敏感等特点而设计的TSDB,并做了多轮架构迭代和优化,是一款实时、高性能、水平扩展(InfluxDB Enterprise)、具有成本优势的TSDB。但在2016年,Paul Dix基于商业化和持久运营的考虑,尚未成熟的集群能力在v0.11.1版后,选择闭源,推出了收费版的InfluxDB Enterprise和InfluxDB Cloud。

2. 通过Raft协议实现Meta节点的数据一致性,考虑到Meta节点存放的是Database/Rention Policy/Shard Group/Shard Info等元信息,这些信息敏感,是系统稳定运行的的关键,CP的分布式架构,合适。

3. 通过Raft协议实现Data节点的数据一致性,考虑到Data节点存储的是具体的时序数据,性能和水平扩展性是挑战,对一致性性要求不高(PPT中亦提到这一点),采用CP的分布式架构,节点和副本强映射,不仅对实时性有影响,集群接入性能亦有限,约等同于单机接入性能,不能很好的支持海量数据的实时接入的时序需求。

4. 2节点集群方案,通过Anti-entroy实现Data节点的数据一致性,应该还实现了Hinted-handoff能力,AP的分布式架构,但节点和副本还是强映射,未见提及基于时序分配、自定义副本数、分布式迭代器等能力,暂无法水平扩展。

5. 云盘能保障数据的可靠性,但无法保障接入的可用性,可用性敏感的业务或实时要求高的业务,还是推荐多节点的集群模式。

6. 开源版InfluxDB(单机)性能不错,InfluxDB Enterprise性能不错,但如何保障补齐集群能力的卓越性能,取决于集群架构、并发架构等,是由集群功能的开发者决定的,这次未见提及性能数据,期待后续的公布。

0x2 附录

未来两年,阿里云20%新增算力将使用自研CPU

11月3日,阿里巴巴在2022云栖大会上宣布,自研CPU倚天710已大规模应用,阿里云未来两年20%的新增算力将使用自研CPU,这是阿里算力攻坚的重要突破。目前,倚天710已在阿里云数据中心大规模部署,并以云的形式服务阿里巴巴和多家互联网科技公司,算力性价比提升超30%,单位算力功耗降低60%,这是中国首个云上大规模应用的自研CPU。

2021年云栖大会,阿里平头哥发布首颗CPU芯片倚天710,该芯片针对云场景研发,同时兼顾了性能与易用性。经过一年的业务验证,倚天710已大规模部署并提供云上服务。倚天710云实例与飞天操作系统及CIPU融合,在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升超30%;阿里云提供丰富的生态工具,支持全应用生态适配,0代码修改即可完成主流业务迁移。

目前,倚天710云实例已应用于阿里巴巴集团核心业务,并服务科学研究、智能手机行业和多家知名互联网公司。2021年双11期间,天猫双11核心交易系统平滑迁移至倚天710云实例,算力性价比提升30%;汇量科技广告推理业务使用倚天710云实例,性能和网络带宽双双提升,性价比提升40%以上。

汇量科技首席人工智能官朱小强表示:“随着在线推理模型不断升级,我们对CPU性能和内网带宽要求更高,倚天710云实例满足了我们业务升级的需求,实现了降本与增效。”

过去十三年,阿里云在操作系统、数据库、存储、网络和芯片等技术领域持续深耕并取得一系列重要成果,是国内唯一一家拥有完整自研软硬件技术体系的云服务商。“云计算的发展进入了全新的阶段,未来十年,软硬件一体化的自研计算体系是云服务商的立身之本,只有在核心技术和产品的研发上持续创新才能抢占定义权。”阿里云智能总裁张建锋表示。

以上是关于阿里云的自研InfluxDB集群方案剖析的主要内容,如果未能解决你的问题,请参考以下文章

阿里自研CPU大规模的应用!阿里自研的CPU有啥特点?

未来两年,阿里云20%新增算力将使用自研CPU

阿里云:加大NoSQL数据库软硬件一体化技术自研

阿里云:加大NoSQL数据库软硬件一体化技术自研

阿里云:加大NoSQL数据库软硬件一体化技术自研

阿里云的备案非常快,赞一个