鹏城论剑,共话数据库前沿技术和趋势
Posted Data-Mining
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了鹏城论剑,共话数据库前沿技术和趋势相关的知识,希望对你有一定的参考价值。
目录
二、MySQL如何满足新数字经济建设场景下大规模数据存储和处理的需求
三、NoSQL也能事务化,MongoDB数据库的事务性技术实践
前言
数据库是什么?数据库是应用和硬件之间的中间层,用于数据管理的软件应用。数据库发展史大约为50年,前30年多年主要发展方向为集中式数据库,集中式数据库方向发展出IBM、Oracle、微软等巨头。从闭源产品发展出开源数据库产品,开源数据库发展迅速,并且有赶超闭源数据库的趋势。业务量的增加导致了数据库向分布式方向转型,同时,云计算的快速发展使得数据库纷纷云化。
正文
一、数据库产业发展观察
1.1 数据库的发展历程
大家都知道,数据库是应用和硬件之间的中间层,用于数据管理的软件应用。数据库发展史大约为50年,前30年多年主要发展方向为集中式数据库,集中式数据库方向发展出IBM、Oracle、微软等巨头。从闭源产品发展出开源数据库产品,开源数据库发展迅速,并且有赶超闭源数据库的趋势。业务量的增加导致了数据库向分布式方向转型,同时,云计算的快速发展使得数据库纷纷云化。
应用和硬件的发展推动着数据库的发展演化,其中应用在线化,面临海量数据的处理需求,同时,高频数据的访问和处理也需要特定功能的数据库服务做支持。另外,硬件的不断发展,高性能CPU和大内存的硬件支持,也加速了数据库的发展演化。
1.2 国内数据库的政策导向和发展现状
2022年,全球数据库市场大约为400亿美元,并且在稳步攀升。中国国内关系型数据库软件市场规模在2019年的时候大概是13.4亿。由于国内数据库产品政策的向好,未来中国的数据库产业发展将会越来越好。数据库是助推数字化转型的关键基础设施,国家推出了很多助力数字化转型的政策。2020年,中共中央国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,明确数据为生产要素、指出加快培育数据要素市场。2021年,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中“数字化”出现了25次。除此之外,很多针对数据库技术的指引文件密集发布。2019年,中国人民银行发布《金融发展规划(2019年-2021年)》重点任务,加强分布式数据库研发应用。2020年,中国人民银行发布并实施《分布式数据库技术金融应用规范》系列标准,共包含《技术架构》、《安全技术要求》、《灾难恢复要求》。
国内数据库企业爆发式增长,目前市场上,从事数据库产品服务的企业超过了30多家,主要分布于云厂商、传统数据库企业、创业企业和传统信息企业转型。其中,云数据库企业有华为,传统数据库企业有达梦,创业企业有PingCAP,传统IT企业有中兴。K-V数据库可以细分为事务数据库、分析型数据库、图数据库、文档数据库、时序数据库。
分布式事务数据库基于mysql改造的最多,基于PG的厂商正在快速兴起。内核路线选择原因主要是生态完整性。基于MySQL路线的厂商已经开始为未来开源协议风险做准备。其他的自研数据库 产品正在迅速兴起。分布式分析型数据库的话,Greenplum的开源让更多厂商能使用和研究分布式分析型数据库,分布式分析型数据库正在努力突破扩展性的限制,大规模部署能力有了很大的突破。
1.3 数据库产业配套体系
1. 服务体系。《数据库服务能力成熟度模型》标准设定,云和恩墨、新炬网络、海量数据等服务厂商为很多企业提供了数据库服务。
2. 培训体系。很多企业,特别是华为已经有自己的培训认证体系。
3. 技术社区。ITPUB、墨天轮、DBAplus、PostgreSQL中文社区非常的活跃。
4. 用户组。ACDU(中国DBA联盟)、ACOUG(中国Oracle用户组)、中国开源软件推进联盟PostgreSQL分会、openGauss用户组。
未来数据库服务在技术方面,会面向云深度融合、支持自治、多模存储引擎、HTAP等方向。在产业方面,高端人才,完善的服务体系、开源、专业社区将成为未来的趋势。
二、MySQL如何满足新数字经济建设场景下大规模数据存储和处理的需求
2.1 MySQL特点与优势
MySQL有哪些技术特点和优势呢?
- 天生分层架构,MySQL Server + InnoDB Engine。
- 插件式引擎思想,InnoDB、MyISAM、ArkDB。
- 成熟的日志机制:REDO Log、Binlog。
- 统一文件存储接口。
- 轻量级线程处理模型。
MySQL有哪些应用特点和优势呢?
- 介入简单,编程灵活。
- SQL简单,方便快捷。
- 普及度高,装机量大。
- 社区活跃,开源力量强大。
2.2 未来发展方向
MySQL的技术发展
- 优化器的全面优化,实现并行处理。
- 多引擎共存,改变一个InnoDB支持的局面。
- 存储可扩展,真正实现独立弹性扩展和分布式。
- InnoDB层面优化存储结构和索引组织,支持大规模数据处理。
MySQL的开源方向
- 修改协议,采用更加宽松的开源协议,免除贡献者后顾之忧。
- 成立独立基金会,实现管理自主。
- 更大力度支持开源社区和周边开源软件。
2.3 需求痛点
1. 数据孤岛,价值低
企业海量的高价值数据分散在各个业务系统中,前期由于没有数据标准导致数据接口复杂各异,难统一集中和整合。
2. 数据难交互,成本高
传统信息化孤岛林立,数据提供成本高,应用效率低。数据库与数据系统缺乏统一管理和统一调度。信息系统架构复杂,数据处理软件林立,技术壁垒制约发展。
3. 数据融合,利旧创新
数据源及访问模式繁多(JDBC、ODBC、API、直连、文本文件),数据库类型繁多(Oracle、MS、ArkDB、MySQL、DM、神通、金仓、南大通用、大数据),数据开发不规范。
2.4 解决方案
1. 利用现有的先进经验
TTS模式,是携程去哪儿网自主研发的数据服务平台,能够保障用户交易资金安全,保证用户信息和隐私安全,提供丰富多样的产品,界面简单易用,操作便捷,并且支持多种支付方式。TTS对于消费者的优势在于用户体验统一和交易安全保障。消费者不用反复输入信息和学习各个网站的展示规则。
2. 方案架构调整
统一数据处理API服务层,依托数据API加工数据,再由API管理驾驶舱,完成统一认证、API鉴权、故障隔离、API限流、访问权限控制、数据编排、数据校验、服务监控告警,利用服务注册中心、服务控制中心、服务发布中心、服务配置中心进行统一管理。同时借鉴分布式数据库,完成计算层、引擎层、存储层、管理层的功能划分,保证数据透明复制,分布式存储、弹性扩容、快照备份、数据冗余、高可用,集群管理、过载保护、安装部署、日常监控、大屏展示、功能定制等需求。
MySQL厚重的技术与市场历史奠定了其在开源领域绝对领袖地址,另外,MySQL生态圈证明,开源技术的蓬勃发展,更好的支持更多的商业需求,理解并遵守开源协议,技术面前,开源和商业并无障碍。
三、NoSQL也能事务化,MongoDB数据库的事务性技术实践
3.1 MongoDB介绍及核心技术架构
MongoDB是成功的开源数据库典范,全球9000多万下载量,中国地区排名第一。DB-Engine数据库排名第五,是唯一的NoSQL类型数据库,上市后三年半的时间市值一路飙升,大概上涨了二十倍左右。
MongoDB数据库的技术优势比较突出的有两个,一是原生高可用,支持横向扩展能力。具体表现在需要的时候无缝扩展,应用全透明,多种数据分布策略,轻松支持TB-PB数据量。二是最简单快速的开发方式,MongoDB利用JSON模型能够非常快速的完成数据读写操作,数据库引擎只需要在一个存储区读写,反范式、无关联的组织极大优化查询速度,程序API自然,开发快速。
3.2 MongoDB第一个支持事务的分布式NoSQL
OLTP数据库两大阵营,关系型数据库支持ACID事务,非关系型数据库无事务支持,但是大多数都支持分布式。MongoDB是第一个支持事务的非关系型数据库,2008年开始起步,2009年支持复制集和分片集,2012年支持更丰富的数据库功能,2014年收购WiredTiger,开始发力周边生态环境,直到2018才开始副本集支持事务,2019年分布式支持事务。
3.3 MongoDB开源商业化路线
开源数据库和闭源数据库的有明显的差别,列举一些例子,比如开源数据库有MongoDB、MySQL,闭源数据库有Oracle、DB2。获取方式上存在差异,开源数据库,大家可以从官网直接下载软件包或者从Github上获取源码自己编译构建。闭源数据库则需要联系销售,获取试用版,然后再签约购买。技术支持方面,二者也存在差异,开源数据库一般都是社区支持,闭源数据库的话都是原厂提供技术支持。费用方面,开源数据库免费,闭源数据库收费。
2009年,1.0发布,2013年增加企业版付费功能,比如安全、加密、审计、管理 等,2016年实现公有云托管,目前线上线下收入基本持平,2020年基本上有4亿美元的收入,达到了200亿美元的市值。
四、openGauss在数据频繁更新下的性能维稳之道
4.1 数据库发展趋势
开源数据库流行程度逐渐赶超商业数据库,2020年2月,DB-Engine开源和商业数据库管理系统普及历史趋势显示,开源数据库的流行度为49%,与商业数据库基本持平,并有超越的趋势。另外,DB-Engine社区调研对比了350种数据库,结果显示开源数据的数据量已经超越了商业数据库,开源数据库在业界已经逐渐成为流行趋势。
全球数据库产品流行度排名中,关系型开源数据库MySQL和PostgreSQL分别占开源数据库排名前两位。在对开源数据库流行程度调研中,关系数据库类型占比超过60%,基于SQL的关系数据库在主流开源数据库产品中仍是主流。
4.2 openGauss介绍
openGauss提供面向多核的高性能、全链路的业务和数据安全、基于AI的调优和高效运维的能力,全面友好开放,携手伙伴共同打造优秀的企业级开源关系型数据库。
1. 高性能
两路鲲鹏性能150万tpmC,面向多核架构的并发控制技术,NUMA-Aware数据结构,SQL-Bypass智能路由执行技术,面向实时高性能场景的内存引擎。
2. 高可用和高安全
业务无忧,故障切换时间RTO小于10秒,精细安全管理,细粒度访问控制,多维度审计,全方位数据保护,存储传输导出加密,动态脱敏、全密态计算。
3. 易运维
基于AI的智能参数调优,提供AI参数自动化推荐,慢SQL诊断,多维性能自监控视图,实时掌控系统性能表现,提供在线自学习的SQL时间预测,快速定位,极速调优。
4. 全开放
采用木兰宽松许可协议,允许对代码自由修改、使用、引用。数据库内核能力完全开放,开放运维监控、开放和迁移工具,开放伙伴认证,培训体系及高校课程。
4.3 openGauss未来技术方向
openGauss的技术方向是更智能、更安全、更高效,AI算法加持,解决传统数据库问题,比如索引/视图推荐,学习型数据库组件,数据库自治运维。数据库系统的软硬件故障自诊断与自定位技术,以及数据库内AI技术。
数据安全方面,数据安全传输,主要是解决传输状态下的数据保护问题,比如仿冒攻击、钓鱼攻击、重放等,具体方案选择可以是HTTPS、SSL、TLS。数据安全运维,主要是解决运维形态下的数据保护,比如权限提升、篡改数据、抵赖等,具体方案是实施防篡改数据管理。数据安全展示,主要解决查询后的数据保护,比如防止隐私泄露、权限提升等,具体方案可以采取数据动态脱敏、Row Level Security。数据安全计算,主要是实现查询计算中的数据保护,比如栈溢出信息泄露,具体方案可以实施全密态数据管理。数据安全存储,主要是解决存储状态下的数据保护,比如拖库、信息提取等,具体方案可以选择透明加密、数据存储加密。
4.4 openGauss未来关键技术
2021年,openGauss主要规划特性是性能提升2P鲲鹏提升20%,4P鲲鹏230W tpmc,可靠性方面,支持Paxos协议,备机能力增强。安全性方面,全密态支持不等于查询,支持国密加密算法。AI方面,根因分析和AI算子扩展。分析能力方面,支持混合负载,数据交易与报表分析实时处理。支持IoT场景边缘节点实时分析。
4.5 openGauss案例
openGauss开源数据库内核,合作伙伴提供集群管理和解决方案,实现商业模式。客户需求和场景落入openGauss内核,合作伙伴一起贡献,促进openGauss成熟发展。比如实现APP按照用户号码归属分配不同的数据库进行数据处理和业务响应的场景。
五、下一代云原生数据库的技术趋势
5.1 下一代云原生数据库技术趋势
云原生时代数据库的生态一定是开放的,用户可以自由的在不同的云数据之间迁移,用户不会再选择封闭的生态,无论自研生态还是开源生态都要完全开放。
- 开放生态。云原生数据库的发展趋势一定是开放生态。
- 智能运维,自动调度。AI+DB是云原生数据库的趋势,可以利用技术手段实现数据库的自动化运维。
- 统一架构,多模兼容。云原生数据库应该具备兼容多种生态接口的统一架构。
- 存算分离,极致弹性。存算分离,资源进一步解耦,直至计算、内存、外存可单独扩展。
- 多平台软硬协同,存储底座可信。多平台算力兼容,存储底座全场景可信。
- 原生跨AZ/Region部署能力。云原生数据库应该基于云基础设施内在的能力原生支持跨AZ/Region级别的高可用部署。
5.2 GaussDB数据库演进方向
1. 极致性价比
利用技术架构优化资源利用率,同时利用自适应冷热分离降低资源成本场景,小规格实例成本大幅度降低,适合孵化型业务低成本部署。历史数据自动归档到低成本存储,对应用访问透明,降低存储成本。
2. Serverless
自动识别业务负载自动缩扩容,结合TAC技术缩扩容对用户无感场景,业务存在明显高低峰时段,自动调度不同的资源量服务,节省使用成本。业务突发流量自动扩容,及时调度更多资源服务,减少人工介入。
3. 全密态数据库
设备密钥、用户密钥、数据密钥三层密钥管理机制,实现设备间加密,数据间加密隔离。创新性突破端侧透明解析机制,实现用户一键式迁移和应用无感知。基于高效缓存的加密引擎,大幅优化对元数据、密钥的数据处理和加密计算路径,实现等值类查询性能损失在5%以内。
4. AI自治
数据库自调优、自诊断、自安全、自运维、自愈等能力,协助DBA降低运维难度,提升运维效率,自动调度平衡资源池。
5. 商业数据库迁移
在线转换商业数据库访问请求到云数据库,离线转换+在线转换双保险整体解决方案场景,旧商业数据库应用无改造迁移上云原生数据库,重构旧商业数据库应用改造过程对应用透明兼容。
5.3 2021华为云数据库技术预览
1. 透明应用连续性解决方案
传统HA方案无法实现RTO=0,闪断会导致正在执行的事务中断需要应用补偿;游戏、IoT、视频等数据库长连接场景,闪断更会导致应用可能需要重启的问题。TAC技术方案,可以支持RTO约等于0,后端倒换可保持数据库连接,连接在倒换完成后可以继续工作,应用不感知数据库倒换,将闪断优化为暂停时间。
2. 透明数据库迁移解决方案
离线转换数据库对象的迁移方案无法处理类似老系统或者外购系统的商业数据库上云需求,此类系统改造成本大或者不具备改造可能性;离线迁移与可能存在部分低频SQL无法被识别到,导致迁移到云数据库后执行到未改造SQL而出现故障。TDM技术方案使用华为云数据库作为后端数据库,在Proxy端实现商业数据库协议解析,再进行在线SQL转换为后端数据库SQL语义。
5.4 GaussDB打造传统商业数据库一站式上云解决方案
用户在选择GaussDB数据库时,选型安心,全场景业务,全开放生态,安全可信。迁移放心,数据库结构、应用、数据一站式迁移,管理省心,无缝协同上层应用。GaussDB作为新一代企业级数据库,面向金融政企客户,提供全方位的可选数据库类型,包括关系型数据库、非关系型数据库。数据迁移过程中不丢失数据,不中断不影响业务,迁移成本低,提供仿真感知,透明可视化。
结论
2020年2月,DB-Engine开源和商业数据库管理系统普及历史趋势显示,开源数据库的流行度为49%,与商业数据库基本持平,并有超越的趋势。另外,DB-Engine社区调研对比了350种数据库,结果显示开源数据的数据量已经超越了商业数据库,开源数据库在业界已经逐渐成为流行趋势。但是,数据库的发展还是要回归到应用生态中,期待更多数据库专家和合作伙伴加入到开源数据库的共建发展中来。
以上是关于鹏城论剑,共话数据库前沿技术和趋势的主要内容,如果未能解决你的问题,请参考以下文章
百度IntelNVIDIA……各大厂商集结,共话AI软硬适配趋势与软硬一体生态新思路...
百度IntelNVIDIA……各大厂商集结,共话AI软硬适配趋势与软硬一体生态新思路...