一文弄懂分布式存储

Posted 云存YunCun

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一文弄懂分布式存储相关的知识,希望对你有一定的参考价值。


点击上方蓝色字关注我们!




分式存储类项目,早年有Sia、storj,到2020年即将上线的Filecoin。以及因为分布式存储使用硬盘挖矿,间接催生和促进了PoC机制硬盘挖矿的一些项目,尤其是在2019年,比如BHD。

 

      备注:PoC和分布式存储是两个概念,不过,因为都使用硬盘,总是被人弄混淆。今天讲的是分布式存储

 

分布式存储以及重要项目Filecoin风头一时无两,不过很多项目关注者、分布式存储爱好者、准矿工更多的是关注这个项目本身的商业价值,就是有没有很好的投资收益。其实对分布式存储的现状和未来缺乏一些初步的认知。

 

了解一个事物的简单方法论是:What?Why?How?是什么?为什么?怎么做?今天我们以很通俗易懂的语言来为大家讲解下:

 

  • 分布式存储是什么?


  • 为什么存储要分布式?

 

  • 用什么样的机制去实现?(下一篇文章讲解)

 

  • 分布式存储的最终目的是什么?(下一篇文章讲解)


 

1  背景知识



计算机互联网络的上有三个重要的底层逻辑:存储、计算、分发。我们简单说一下这些概念,对后面的内容很有帮助。

 

存储就是存储数据、信息。涉及到硬盘、存储服务器等设施;

 

计算就是对数据进行处理运算得到结果信息。这个就是计算机的名字由来,就是用来做计算的,CPU,GPU等等硬件也是处理数据的核心单元;

 

分发是将信息分发出去。这一点比起上面的内容稍微需要多说一下,分发网络也叫CDN(Content Delivery Network)是指内容分发网络,硬件涉及交换机、路由器、内容管理系统等等。

 

 


 

如果上述内容不好记,大家记住一个事儿就好,华为公司创业初期的时候做的就是交换机领域的生意,也就是分发领域;然后到通信基站、到手机,再到现在自主研发芯片,这就到了计算领域。

 

有了这个底层认知,我们可以看到,存储、计算和分发,都很重要,但是相对来说计算更酷,存储更保守,分发更没存在感。技术实现难度有高低,对于网络的重要性是同等的。 


2  中心化存储与分布式存储



家里的笔记本电脑、台式机目前一般1T存储空间基本够用,成本也不大,买一块硬盘或者一台电脑,最多加个移动硬盘,够用好几年了。但是,对于存储大量数据的机构来说,这已经是巨大的开销。

 

最近常有人引用一句话,叫做“时代的一粒灰,落到一个人头上就是一座山”,逆向思维,每个人的一点数据,汇聚起来对于机构来说就是一座山,有人说是新时代的数据就是石油和金矿——前提是你作为机构得能扛得住这个金山。

 

以美国航天局NASA为例,NASA到2025年将拥有247 PB的数据处理能力,远远高于目前的32PB。NASA计划每月向AWS支付543.9万美元,即每年6513万美元的费用。到2025年,除6500万美元的原有交易额外,NASA 每年还得额外向 AWS 支付约 3000万美元的新增云服务的费用。(此项信息,百度、google搜索“NASA信息存储量”就可以获得相关公开信息)

 

 

一文弄懂分布式存储


 

 

搞笑的事情是,听说NASA这样的机构居然也只算了存储在亚马逊云AWS的费用,访问和下载费用没有算进去。这是后话。

 

所以,中心化的存储,总有一个物理上限,NASA每天数据用卡车拉着硬盘去存,已经顶不住了。而亚马逊云、阿里云等等公司的百万台级别的存储服务器还在不断增加,即使目前是可以的,未来也有物理极限,要么删除数据、要么找更多的硬盘更大的场地去存东西。

 

数据越来越多,人类不能失去记忆,但是,你能想象未来美国在一百年后,划出来一个州的面积去放存储服务器吗?

 

怎么办?如果存储可以分布式,也就是说,把中心化的存储分出来(一部分)给每个拥有电脑的个人用不完的电脑、手机空间去存储,这个问题就可以解决。这就是为什么会有分布式存储?以及什么是分布式存储。

 

简单理解为:东西在一个地儿存不下了,所以要找别的人,多弄几个地儿存。去中心化后,分散到每个参与者的电脑里。

 

当然,网上可以看到很多信息,说中心化拿了我们的数据,会作恶,不够安全没加密。很多身边朋友的手机密码、门禁卡、银行卡密码都是自己的生日或者手机号后六位,这些日常更加重要的东西,你也没有想着来个加密算法保护一下,本质原因是许多声音改变了你的想法,让你觉得中心化存数据就是不好,不安全,如果地震了怎么办?如果火灾了怎么办?对于大多数人来说,这些事儿吧,不会发生,如果发生了,你担心的不应该是自己的数据,而是自己的生命以及数据中心工作人员的人身安全。本质就是在一个地儿存成本太高了,来个共享经济多好。


3  为什么要用区块链?



上文已经说了,现在中心化的存储要分布在每个人的电脑、手机等存储设备中,灵魂拷问来了,我为什么要给你存东西?

 

答案是:帮我存东西,有钱赚。

 

区块链或者叫做公链项目有一个东西非常重要,就是激励机制,简单的说就是你对网络有贡献就会有激励,就可以拿到币,然后变成钱。可以思考如果比特币网络没有了激励机制,谁还去做矿工,矿工是维护比特币网络的重要组成部分,矿工不挖了,这个网络也就不安全了。

 

 


 

假设现在矿工都不挖了,世界上还有几台笔记本电脑在挖比特币,我简单调用一些云服务器就可以攻击你比特币的网络,分布式存储是一个道理,让别人帮你存东西,必须有偿服务。不给钱了,立即中止合作,停止存储。

 

所以区块链是最适合做分布式存储的底层架构。




点“在看”,让更多看见


以上是关于一文弄懂分布式存储的主要内容,如果未能解决你的问题,请参考以下文章

一文弄懂“分布式锁”

解读一文弄懂“分布式锁”

还没弄懂分布式场景下数据一致性问题?一文教你轻松解决!

一文看懂分布式存储架构

一文弄懂消息队列相关面试问题:消息可靠性重复消息消息积压利用消息实现分布式事务

干货:一文看懂分布式存储架构