分布式存储产业的国产替代机遇〡水木资本原创

Posted TsingVentures水木资本

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了分布式存储产业的国产替代机遇〡水木资本原创相关的知识,希望对你有一定的参考价值。


随着计算机技术和网络技术飞速发展,磁盘存储成本不断降低,磁盘容量和数据总线带宽的增速无法满足应用需求,海量数据对于存储提出了新的要求。传统存储虽然技术成熟、可用性高,但面对海量数据,中心式存储在延展性和成本方面都表现出劣势。未来十年,分布式存储产业国产替代将成为主流。
 
我国目前提出加强新一代信息基础设施建设40万亿国家工程,即“新基建”,信息基础设施建设是其中的主要板块。市场需求旺盛,分布式存储行业迎来发展机遇。人工智能、物联网、区块链、5G等技术的快速发展和应用,数据呈指数级增长趋势,促进分布式存储行业创新式增长。
 
从行业周期看,服务器软硬件持续升级周期为2-3年,当前已处于升级换代阶段。中美摩擦,加速了国内数字领域的发展,加速推进数据基础设施建设,在IPFS新技术的支持下,新一轮行业机遇诞生。

 

1


分布式存储产业链



数据一般可以分为三类,分别是非结构化数据、半结构化数据、结构化数据。非结构化数据指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成,没有规律,比如文本、图像、声音、影视等。半结构化数据介于完全结构化数据,如关系型数据库、面向对象数据库中的数据,和声音、图形文件等完全无结构的数据之间的数据,html文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。结构化数据即即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,数据模式和内容是分开的,数据的模式需要预先定义。
 
从产业链来看,分布式存储重要的基础设施是数据中心,服务器是数据中心的心脏,芯片是服务器的核心组成部分。分布式存储使用的设备一般是常规服务器,而非存储设备。分布式存储通过非标准协议实现服务器上存储资源,并进行存储资源池化和虚拟化处理。分布式存储使用的并非是标准协议,因此通常需要在应用服务器安全其客户端软件实现存储空间的虚拟呈现,以及请求的处理。
 

 

存储设备、云存储技术、云存储系统、云存储服务的关系图
 
服务器硬件升级的核心是数据处理,即对数据的采集、存储、检索、加工、变换和传输,国产化能力长期偏弱。受中美贸易摩擦及疫情影响,上游原材料供应受阻,整体市场成本或增加。但中国市场有巨大市场以及技术迭代需求,国产的技术、产品及组织形式上的创新,将有可能带领硬件端突破重围,带来行业格局变化。
 
分布式存储通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成虚拟的存储设备。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器称为系统性能的瓶颈,可是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储采用可延展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息。它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。

 

2


分布式存储性能


 
分布式存储系统具有可延展性、可用性、可靠性、高性能、易维护、低成本等特性。
 
高可用性:分布式存储系统在面对各种异常时可以提供正常服务的能力,系统的可用性可以用系统停时间和正常服务时间的比例在衡量。
 
高可靠性:重点指分布式系统数据安全方面的指标,数据可靠不丢失,主要用多机冗余、单机磁盘RAID等措施。
 
高延展性:分布式存储系统通过扩展集群服务器规模从而提高系统存储容量、计算和性能的能力,业务量增大,对底层分布式存储系统的性能要求越来越高,自动增加服务器来提升服务能力。
 
数据一致性:分布式存储系统多个副本之间的数据一致性,包括强一致性、弱一致性、最终一致性、因果一致性、顺序一致性。
 
高安全性:指分布式存储系统不受恶意访问和攻击,保护存储数据不被窃取,针对现存的和潜在的各种攻击与窃取手段,有相应的对应方案。
 
高性能:衡量分布式存储系统性能常见的指标是系统的吞吐量和系统的响应延迟,系统的吞吐量是在一段时间内可以处理的请求总数,可用QPS和TPS衡量。系统的响应延迟是指某个请求发出到接收到返回结果所消耗的时间,通常用平均延迟来衡量。
 
高稳定性:这个指标考察分布式存储系统的整体性能。由于分布式存储拓扑结构的复杂性,对于分布式存储需要实现基于网络的数据冗余、数据保护和数据容错等功能,确保在出现任何异常情况下存储系统的可靠性。

 

3


存储引擎的类型



存储引擎是存储系统的发动机,决定了存储系统能够提供的功能和性能。现在主流的存储引擎包括哈希存储引擎、B樹存储引擎、LSM存储引擎。

哈希存储引擎:基于哈希结构的键值存储系统,数组+链表的方式实现,支持持Create、Update、Delete、随机Read、O(1)Read复杂度。
 
B树存储引擎:基于B Tree实现,支持单条记录的CURD,以及顺序扫描和范围查找,RDBMS使用较多。
 
LSM树存储引擎:对数据的修改增量保存在内存中,达到指定条件后,批量将更新操作持久到磁盘,读取数据时需要合并磁盘中的历史数据和内存中最近修改操作,LSM优势在于通过批量写入,规避了随机写入问题,提高写入性能,LSM劣势在于读取需要合并磁盘数据和内存数据。LSM避免内容数据丢失,保证操作数据的可靠性。

 

4


分布式存储的市场容量及投资机会



分布式存储系统功能强大,由于涉及的领域多,面临挑战大,研发周期长,技术门槛高,需要较多投资投入。根据IDC数据,2020年中国第三方管理服务市场规模为11亿美元,2023年市场规模预计达到32.1亿美元。
 
分布式存储涉及产业众多,每个产业链细分领域都有机会。巨大的增量市场中,服务器、数据中心、芯片、分布式存储新技术和分布式存储产品是当下的投资热点。
 
1、服务器

全球服务器市场竞争格局稳定,戴尔、惠普、IBM一直是行业领先者。2014年以来中低端服务器领域国产化程度开始提速,第二梯队浪潮、华为、联想等中国企业在慢慢突破,尤其近年浪潮在云服务器大规模ODM定制方面有明显优势,国产替代迎来黄金期。得益于中国快速发展的云计算以及数据中心市场,大规模服务器需求持续增长,促进了中国本土服务器企业的发展,提升了在国内外市场的竞争力。

2、芯片

对于存储行业,存储芯片主要有ASIC技术实现存储芯片和FPGA技术实现存储芯片。芯片全球存量份额主要为Intel垄断,其次是AMD、Nvidia、华为海思等。全球存储芯片厂商重要是三星、海力士、镁光,合计市场份额约为95%。我国芯片产业整体发展较为薄弱,主要云服务提供商的计算、网络和存储资源中,绝大部分的设备芯片来自国外企业。由于存储服务器关键部件的国产渗透率低,芯片有望率先进入国产化拐点。

3、数据中心

分布式存储涉及领域众多,但目前而言市场热度集中在底层基础设施建设,这也是新基建的七大产业方向的核心。大数据中心是新基建的能量,汇聚所有行业的数据、存储和分析,其中服务器是枢纽,也是行业的重要领域。
 
从大数据中心产业链看,上游为基础设设施及硬件设备商,中游为运营服务及解决方案提供商,下游为数据流量用户提供服务。电力设备是大数据中心的成本重点,低成本是数据中心运营商建立竞争优势的关键。
 
到2030年数据原生产业规模量占整体经济总量的15%,中国数据总量占全球数据量约30%。数据资源已成为关键生产要素,更多产业利用物联网、工业互联网等结构或非结构化数据资源来提取价值信息,而海量数据的处理与分析要求构建大数据中心。2019年中国IDC业务市场规模达到1562亿元,同比增长27.2%,到2025年中国数据中心投资将超过7000亿人民币。

4、分布式存储技术

谷歌、亚马逊和阿里等公司云计算和大数据应用的兴起,分布式存储开始大规模应用如谷歌的GFS和google bigtable,亚马逊的AWS和阿里的TFS。分布式存储技术体系结构分为硬件层、单机存储层、分布式存储层和存储访问层。分布式存储技术因云计算等需求,正处于创新和突破阶段,目前市场公认的是IPFS和Filecoin,二者都是开源技术。

5、分布式存储产品

数据从产生到应用,继而再产生新数据的过程,大数据产业形成一个产业闭环。2020年,我国产业数字化增资规模达到33万亿元。目前分布式存储产品还处于行业发展早期,随着新技术的出现,相关产品及应用将呈现指数级爆发。






相关阅读




行业研究


作者:水木资本


水木资本Tsing Ventures是一家早期直投基金管理公司,专注于投资TMT领域。水木资本亦管理着多支母基金。团队成员主要来自于清华大学、牛津大学等知名高校,拥有较为丰富的投资经验。

分布式存储产业的国产替代机遇〡水木资本原创

优秀项目请发送BP至:bp@tsingcap.com
更多信息请关注水木资本今日头条号与官方网站www.tsingcap.com
实习生简历投递:yaoli@tsingcap.com


以上是关于分布式存储产业的国产替代机遇〡水木资本原创的主要内容,如果未能解决你的问题,请参考以下文章

新基建分布式存储,时代浪潮,有限机遇

新基建下大数据分布式存储的机遇:大会重量级圆桌论坛精彩回顾

声音倪光南:国产操作系统2年替代XP

国产替代风潮下,电子元器件B2B商城系统如何助力企业突围市场竞争

普华出席安可会并发布国产化分布式存储解决方案

网安信科技创始人夏杰参加主题为“东数西算启动ipfs迎来重大机遇”的圆桌论坛