盘古开源解析:分布式存储面临的技术瓶颈与发展机遇

Posted 盘古开源

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了盘古开源解析:分布式存储面临的技术瓶颈与发展机遇相关的知识,希望对你有一定的参考价值。

数据价值分层是分布式存储经济激励的关键

不同数据的市场价值是不同的,不同个体对相同数据的价值判断也并不一致。在存储节点并不知道数据的内容、难以评判数据价值的情况下,如何有效将存储激励与数据市场价值做到优化配置?

数据价值分层是甄别数据价值以及实现有效激励的关键。分布式的节点负责存储数据碎片,但并不知道数据内容以及数据的价值,也就是说,节点的工作量衡量如果不能考虑数据价值的因素,就很难实现更优化的市场激励调节。目前现存的共识机制,均仅限于节点的存储工作量衡量,而无法代表数据价值。而节点的物理损毁、网络服务质量差的成本是以经济激励来衡量,但因此造成的用户数据服务质量和数据价值损失并不对等。简单说,该节点最多损失的是系统经济激励,而用户损失的可能是数据的损毁或极差业务服务质量——毕竟对于节点来说,数据价值的核心衡量因素是存储容量。

应考虑底层构架和应用层结合的方式解决数据分层问题。解决数据价值分层,对分布式存储的经济激励十分关键。在基础构架层面难以单独解决,必须结合应用层来实现。结合应用场景,在应用层实现数据的分层,从而实现节点的分层。这类应用在私有网络、局域网更方便实现。针对不同的应用场景,采用不同的应用层策略。也就是说,广泛而统一的分布式存储网络很难满足各个场景和用户个体的需求,针对不同场景采取不同的应用层解决方案来完成数据价值分层是可行的方案。

I/O性能瓶颈需要底层和应用层联合优化解决

分布式存储会带来系统I/O性能问题。和传统存储系统相比,分布式存储需要将文件打碎、多节点备份保存,在查询使用数据时需要进行大量碎片文件的调度工作,工程量极大。另外,当文件较大时,用于内容寻址的哈希表也会很大,寻址时间也会更长。更为关键的是,节点的网络资源状况对网络I/O性能的影响也存在诸多不确定性,尤其是那些流媒体数据,若某些数据碎片的节点网络状况较差,则会影响整个数据文件的访问服务质量。中心化存储下,通过CDN等手段可以解决这些问题,拥有较好的客户体验。因此,现有的分布式存储系统的I/O效率是技术新能方面首要考虑的问题之一,从代码实现到协议层都有很大的优化空间,还需要进一步突破。

实验测试显示IPFS的I/O性能还有待进一步改善。由于采用分布式存储,文件的读取受到节点自身及全网其它节点的影响,主要包括:节点数量和稳定性、带宽、网络(地理)位臵等。来自复旦大学的研究人员对IPFS的I/O性能做了一项实验,并和HTTP进行对比,以验证IPFS网络处理请求时的延迟和吞吐量表现。远程读取操作的平均延迟方面,当请求是小的请求时,在1k-4k间,HTTP延迟比IPFS低。遇到16-256k之间的文件,IPFS的延迟状况由于HTTP。当处理大文件请求时,IPFS在延迟上的表现不尽人意,尤其是请求大小超过16MB时,IPFS的处理时间接近了20秒。超过64MB时,延迟更是可以达到70秒,是HTTP(10秒)的7倍。当然,这是实验室测试条件下的结果,在实际应用过程中,尚未有具有说服性的案例;无论如何,IPFS等分布式存储方案若想替代HTTP等中心化方式,还有很多底层技术构架、协议和应用生态方面的改进与探索。


分布式网络的传输效率还非常依赖网络规模,激励机制有待完善。P2P的文件交互传输协议采用的是打散文件、多点续传的方式,传输效率十分依赖分布式网络中的节点数量。因此,需要完善激励机制,使节点用户在自己无下载需求时仍积极接入网络,为其他用户提供存储服务。当去中心化网络中在线的节点数比较稳定之后,传输速度会更快。从长远来看,协调好多点续传以后的去中心化存储系统拥有十万甚至百万级的节点数量,系统I/O效率才有望比拟当下中心化+CDN存储的系统效率。

服务质量保障

去中心化系统的服务质量还有很大的优化空间。分布式存储市场上现有的落地应用不多,普遍面临节点数量规模不足、应用层开发不够完善等问题,用户使用体验无法和成熟的中心化存储产品相比,因此付费意愿也较弱。故要解决如何用不可靠的分布式节点提供可靠的存储服务这个问题,首先要设定共同认可激励和惩罚机制,其次还需要通过经济激励之外的手段(如运营机制检查)来规范节点行为。

存储数据价值较高的用户需要承担更大的服务质量风险,亟待应用层解决方案。区块链只负责监控各节点工作量的完成情况并予以奖惩,但是无法弥补用户损失,因此服务质量问题交由应用层来解决。比如,可以根据节点的历史惩罚记录区分服务质量等级,用户需要存储重要数据时,可以自愿选择收费更多的、质量更高的存储服务。只有当越来越多的用户愿意消费,网络中的节点越来越多时,去中心化存储系统的整体效率才能提升,服务质量才更有保障。因此,考虑到系统运维成本、服务质量和宏观监管等问题,分布式存储系统无可避免地会存在一定程度的集中管理和控制。

在应用、运营层面中心化组织与分布式存储将进一步融合

分布式存储在I/O瓶颈、数据价值分层和应用服务质量方面需要引入中心化组织形式来弥补运营成本。分布式存储所面临的上述问题,给应用带来了较高的运营成本,因此可以引入中心化的组织方式来弥补高昂的运营成本,就像BitTorrent采用中心化的方式来管理哈希表DHT一样。简单说,数据碎片可以分布式存储,但在不同的应用场景可以引入一些限制。

在数据价值分层方面,对于一些特别重要的数据,核心数据采用中心化的存储,一般数据采用分布式存储,这类相结合的方式是较为现实的解决方案。

在应用服务质量方面,限制数据文件存储的物理和网络位臵、QoS保障,来确保数据文件的安全,因此,需要对此类节点进行一些激励补偿。

另外,在应用层面,复杂且较长IPNS对于用户是较难记忆和操作的,类似于DNS服务实现IP地址和域名之间的管理一样,利用中心化的方式解决IPNS用户不友好的,引入类似文件存储域名的服务,这也是中心化与分布式存储进一步融合的方向。

以上是关于盘古开源解析:分布式存储面临的技术瓶颈与发展机遇的主要内容,如果未能解决你的问题,请参考以下文章

盘古开源专注于芯片产品研发,未来发展不可估量

喜讯:盘古开源荣获多项数据存储行业荣誉奖项

盘古开源:分布式存储技术实现数字化确权价值

盘古开源浅谈Filecoin未来应用场景,引领分布式存储新未来!

盘古开源:Filecoin通过经济激励机制促进IPFS的发展

盘古开源解析:IPFS去中心化存储技术实现落地应用,有何价值?