聚英国际对话分布式存储:贾永政博士——人工智能与区块链上的存储和计算
Posted 聚英国际
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了聚英国际对话分布式存储:贾永政博士——人工智能与区块链上的存储和计算相关的知识,希望对你有一定的参考价值。
出品:聚英国际
编辑:Cecilia
8月18日,由链世纪财经、Ever链动主办,聚英国际、PAI Community联合主办,BTRAC全球数字网络高等智库、察访区块链、币世界、碳链价值协办的链世纪财经对话分布式存储No.6在金色财经及近200个社区平台同步直播。本次活动战略合作金色财经、Cointelegraph、火星财经、布洛克科技、星际视界五家业界优秀媒体,50余家区块链媒体倾情支持。
此次活动以“人工智能与区块链上的存储和计算”为主题,特邀中国技术经济学会区块链分会秘书长贾永政担任嘉宾,链世纪财经CEO焦仕可担任主持,共同解读人工智能与区块链上的存储和计算等热点话题,共享分布式存储领域商业机遇。
清华大学计算机科学实验班(姚班)2009级本科,交叉信息研究院博士,曾赴加州大学伯克利分校、宾夕法尼亚大学做访问学者,2013年参与创办是全球最大中文MOOC平台—学堂在线,2018年创办Ever Chain。研究方向包括:大规模社交网络、云计算系统的动态优化,以及将人工智能和区块链技术应用到大规模用户的产品与服务中,在互联网、分布式系统、人工智能、博弈论等多领域顶尖会议/期刊(如WWW、IEEE/ACM Transactions on Networking、JSAC、ICSE、ICDCS等)发表多篇学术论文。
Q1
人工智能与区块链上的存储和计算有什么关系?
【贾永政】:首先,无论是更早的大数据、云计算技术,还是当今的人工智能技术,都是建立在对数据的安全存储、价值挖掘以及隐私保护的基础上。
众所周知,人工智能的算法需要大量的数据和模型,我们要对海量的数据进行存储和计算。
诞生于2011年的卷积神经网络(CNN)AlexNet,总共有0.6亿个参数
Google的NLP模型BERT,流行一时,共有3亿个参数。
GPT-3 模型的前身GPT-2,有15亿个参数。
英伟达的Megatron-BERT,有80 亿参数。
2020年2月,微软Turing NLP,有170 亿参数。
2020年6月,Open AI 的GPT-3问世,有1750亿个参数,是迄今为止最大的AI模型。
同时,全球用于各种人工智能和大数据系统的数据也在以每年1800亿TB的速度不断增长,这反映了AI对于海量数据的存储和计算需求。很明显,AI已经进入了数据存储和计算密集型的时代,我们需要充分保障AI数据和算法模型的安全性,防止数据和模型参数丢失。同时,我们还要保障数据的隐私,防止数据在使用的过程中泄露用户隐私造成损失。
我们注意到,分布式存储和区块链技术为AI提供了更好的安全保障。在传统的数据存储系统中,我们往往需要通过冗余备份和容灾技术保障数据和模型的安全存储。此外,以IPFS为代表的的分布式存储使得AI的数据和算法模型被更加安全地存储,有效地防止了单点故障。同时,区块链技术可以很好地为AI数据和算法提供不依赖可信第三方的访问权限控制,并可以在区块链上细粒度地追溯到数据是如何被存储以及使用的。因此,我们可以通过区块链建立更好的数据存储和共享机制,促进数据更好地流通并产生价值,并保护好数据的隐私。
同时,我们还要进一步思考,如何更好地将AI和区块链技术结合起来,使得二者能够相互融合,彼此促进。
在这里,我想和大家分享Project PAI提出的有用工作量证明(Proof of Useful Work,即PoUW)项目,我认为这个研究项目代表了AI和区块链技术融合的趋势,并有机会改变这个行业。
PoUW的目的在于使用AI的计算来替代传统的PoW哈希运算,使得在区块链上的算力能够用于实际的AI应用,让这些算力变得“有用”。未来,这些算力不仅可以用于机器学习训练,还可以拓展到通用的链上计算,如链上数据分析、基于密码学的链上隐私计算(如零知识证明、多方安全计算)等。
众所周知,比特币的开采是一个十分消耗时间和资源的过程。每添加一个区块链交易区块,矿工们都必须花费大量成本,比特币协议所用的工作量证明(Proof of Work, 即PoW)机制,通过大量的哈希运算来完成共识,这些计算工作本身并没有其他用途。基于在区块链上训练机器学习模型,提供了一种新颖的“有用工作量证明”(Proof of Useful Work, PoUW)协议。矿工在诚实地进行一定量的机器学习训练工作之后可以得到一次铸造新虚拟货币的机会,获得出块奖励。同时,我们在网络中引入了对于AI和链上计算的客户,客户会向PoUW区块链网络提交AI训练任务并支付token给参与机器学习训练完成任务的节点。这是对于参与网络的一种额外激励,除了系统提供的出块奖励,并且是基于真实需求的。
下图给出了一个PoUW的工作模型,描述了在PoUW系统中各个参与者是如何协同工作的:首先,客户可以通过支付PAI币,向PAI的PoUW网络提交一个机器学习或者链上计算任务。工作节点(矿工)需要执行AI训练,完成训练和计算任务,网络中的监督者和评估者需要对工作者的工作进行验证,评估收益分配和支付方式,并防止拜占庭节点的恶意行为,普通节点还可以在PoUW网络中执行常规的链上交易,享受通用的区块链服务。如此,PAI 的PoUW区块链保证了整个机器学习训练过程的安全性,使得现实中的AI算法任务利用区块链网络的算力来解决。同时,为区块链引入了更多的激励, 使PoUW区块链上的通证(PAI币)有了更丰富的应用场景。
目前,Project PAI的PoUW项目正在测试网阶段,并将在明年上线主网。为了使得AI和链上计算更好的运行于区块链网络,我们还要考虑区块链的存储需求。PAI区块链设计并实现了相应的数据存储协议(PDP-2),该数据协议已经用于供应链管理和商品溯源等领域。未来,PAI数据存储协议还将接入BitTorrent和IPFS网络,来更大规模地支持链上的AI训练和通用计算。同时,基于PAI数据存储协议,Project PAI还研发了区块链数字身份认证和权限系统 PAI PASS,用于在区块链上更好地共享并管理数据,保障用户的隐私。
在此,感谢Project PAI为我们提供了AI和区块链结合的最新研究成果,PoUW项目作为今天的案例,为我们描述了一个完整的AI和区块链存储和计算相结合的系统架构。
更多关于PAI区块链和PoUW的研究成果,欢迎大家查看:
https://projectpai.com/pai-research/
Q2
IPFS被誉为新一代互联网底层协议,您认为它对分布式存储的发展具有怎样的作用?
【贾永政】:首先,分布式存储系统和分布式文件系统不一定是去中心化的,它可以是由一个主体发起并运营的可扩展的存储系统架构,通过使用多台存储服务器分担存储负荷,并使用位置服务器定位存储信息,从而系统的可靠性、可用性和数据存取效率。传统的经典分布式存储系统包括GFS、Hadoop、glusterFS等,他们都对分布式存储技术产生了重要影响。
特别地,IPFS (InterPlanetary File System) 是一种点对点(P2P)的分布式文件系统,它可以是完全去中心化的,这一点是不同于上述几种分布式存储/文件系统的。因此,IPFS可以和区块链系统很好地结合使用,并在系统中引入激励机制(Filecoin)。
同时,IPFS还可以成为新一代互联网底层协议来使用,作为HTTP的替代版和升级版是完全没问题的。因为与HTTP不同,IPFS使用的P2P传输协议几乎不会有404和502等情况。同时文件经过加密处理和碎片化处理后将被永远储存。利用更多闲置硬盘和带宽,IPFS将会不再需要浪费大量的设备维护,极大节约带宽和存储资源,极大的降低数据传输的成本。
在这里简单介绍下IPFS的工作原理:
IPFS中每个文件及其中的所有块都被赋予一个称为加密散列的唯一指纹。
IPFS通过网络删除重复具有相同哈希值的文件,通过计算确认哪些文件是冗余重复的,并跟踪每个文件的版本历史记录。
每个网络节点只存储它感兴趣的内容,以及一些索引信息,有助于弄清楚谁在存储什么。
查找文件时,你通过文件的哈希值就可以在网络查找到储存该文件的节点,找到想要的文件。
使用称为IPNS(去中心化命名系统),每个文件都可以被协作命名为易读的名字。通过搜索,就能很容易地找到想要查看的文件。
IPFS开源协议始于2014年,目前已安全稳定运行6年,在GitHub的活跃度非常好,开发者们的参与度很高。关于IPFS的激励机制(Filecoin)以及基于IPFS可以构建各种互联网和区块链应用,后面我们会详细介绍。
Q3
您说到新的数据计算技术策略是将计算转移到存储,而不是之前的将数据从数据源转移到CPU后再进行计算,这怎么理解?
【贾永政】:在传统的系统架构设计中,存储和计算往往是分开的,通常是将数据从数据源(如内存、磁盘等存储设备)转移到CPU后,然后再进行计算。这种设计在有的时候并不是最优的,正如我们讲到,AI技术是数据存储和计算密集型的,如果能够更好地打通计算和存储的隔阂,就会提高数据计算和存储的效率。
长期以来,研究人员已经意识到传统的以CPU为中心的大数据集处理效率低下。因此,为了数据密集型处理性能和能源效率更高,不少研究工作开始探索新的存储与计算技术:近数据计算(NDP:Near Data Processing),该策略将计算转移到存储(即数据源),而不是之前的将数据从数据源转移到CPU在进行计算。这些研究认为,磁盘中的多余计算资源可用于在其本地运行数据处理任务。随着固态硬盘(SSD)的不断发展以及数据密集型应用程序的出现,近年来,近数据计算(NDP)引起了存储、高性能计算、数据库系统等领域的研究者的广泛关注,并取得了丰富的研究成果。
除了上面讲述的近数据计算的技术之外,我认为,去中心化存储技术和区块链技术给了我们更多的融合存储和计算技术的可能。在IPFS里面承担存储的节点,同样也能进行相应的计算,在PoUW里面进行训练的矿工或者检验训练结果的验证者,同时也可以承载数据存储的工作,这个理念和近数据计算是一致的。将去中心化存储与计算结合在一起,将会带来更多应用场景,特别是对于AI和大数据科学等数据密集型的应用,将会极大地提高我们进行计算和存储的效率。
Q4
5G和AI的快速发展会对分布式存储技术有怎样的促进作用?
【贾永政】:5G网络的主要目标是让终端用户始终处于联网状态,相比4G网络(4G LTE)服务的传输速率仅为75Mbps,5G网络已成功在28千兆赫(GHz)波段下达到了1Gbps。因此,5G可以极大地提高网络中点对点传输的效率,提升带宽,降低延迟。
5G网络的超大网络容量提供千亿设备的连接能力,从而提高各类数据和文件的存储、传输和共享效率。
同时,5G网络也提升了系统的协同化和智能化水平,表现为可以实现多用户、多点、多天线的协同组网,以及网络间灵活地自动调整。这也为更加灵活的去中心化存储架构提供了更多可能。
AI的技术我们刚才讲到,其技术本身创造了巨大的对于存储技术(包括分布式存储)的需求,同时也促进了存储和计算的融合。同时,AI的算法也可以用于对于分布式存储资源的智能调度,更好地匹配存储市场的供应和需求,从而提高市场的效率,使得分布式存储技术变得更加智能,这也是分布式存储和云计算领域的热门研究课题。
Q5
从技术角度来看,人工智能和分布式存储技术趋势会带来哪些行业机遇?比如创业赛道、项目案例?
【贾永政】:首先,去中心化存储是个很大的市场,IPFS给我们提供了很大的想象空间。基于IPFS构建更丰富的互联网应用和区块链应用,是创业者们一个很好的选择,
我们刚才所提到的近数据计算、智能化存储都是很好的AI+存储的研究方向。
基于去中心化存储的去中心化自治组织(DAO)也是一个很好的方向,去中心化存储为DAO创造了更大的容量和更多的可能性。
在众多IPFS应用中,金融是个很好的方向,特别是当今大火的去中心化金融(Defi)
另外,我们刚才提到 Project PAI的PoUW,很好地将AI与链上的计算融合在一起,再结合去中心化存储技术,就可以把AI与区块链的计算和存储做成一个统一的解决方案,应用于各种现实中的场景。
Q6
您认为Filecoin协议会让分布式存储成为一个大规模的区块链落地应用项目吗?
【贾永政】:IPFS作为一个开源的去中心存储协议,诞生于2014年,网络运行平稳。
Filecoin机制的设计为这个去中心化存储协议引入了激励机制,如同Bitcoin一样,加密经济学中的激励机制是协调去中心化(去信任化)系统中节点与节点之间生产关系的模型,好的机制设计才能保障系统按照预期的方向运行。
Filecoin 是基于 IPFS 协议的激励机制及公链系统,IPFS 协议定义了文件在分布式系统中如何存储、检索和传输,能永久、去中心化保存和共享文件,这是一种内容可寻址、点对点分布式协议。FIL 为 Filecoin 发行之代币,用于激励 Filecoin 网络中存储及检索市场各个角色的行为。
Filecoin 采用混合共识机制 : 以预期共识 (EC) 为主(相当于PoW+PoS混合共识),复制证明(PoRep) 及时空证明(PoSt) 为辅。
在预期共识中,矿工赢得选举的可能性跟矿工当前的存储能力成正比。矿工的存储能力则是利用时空证明 (PoSt) 及复制证明 (PoRep)来证明。时空证明可以利用证明链及时间戳证明矿工在一定时长内存储数据,即使验证者不在线,也能够在未来去验证矿工在该段时间内生成了证明链,有效防止临时生成数据攻击。
Filecoin 经济模型中存在两大市场:存储及检索市场,两个市场中分别存在客户及矿工。除了上述两个角色外,Filecoin 经济模型生态中有开发者及投资者。开发者开发新工具、应用程序和提供概念验证建议,优化 Filecoin 生态及存储检索市场。开发者提交提案可获得基金会津贴。投资者通过在二级市场提供流动性,提升 Filecoin 网络价值。
目前在IPFS生态中,已经有各种不同类型的应用,大家可以参考下面这张图:
上图展示了基于IPFS开发的各类应用,我们已经可以看到IPFS被广泛应用于数据存储、社交媒体、浏览器、金融、内容、NFT、治理、交易所等各个领域。我们相信,未来IPFS会有更多的应用场景,给我们带来更多惊喜。
这里面有个知乎链接,介绍了上面的一些应用,欢迎大家查看:
https://zhuanlan.zhihu.com/p/112503120
Q1
PAI的存储技术现在开发到哪一步了?PAI区块链存储系统相对于其他系统,有什么优势,可以用IPFS做底层么?
贾永政:Project PAI的存储技术基于PAI数据存储协议PDP-2,目前已经可以提供相应的技术服务,前一段还和Uncle Saba's合作用于食品的溯源和供应链管理。另外,PAI PASS是构建于PAI存储协议之上的身份认证和数据权限控制系统,未来在数据共享上会有更多应用场景。Project PAI的存储系统是构建于存储底层的应用服务协议,底层可以为IPFS和Bittorrent等去中心化网络。
Q2
针对贾博士的分享。BTRAC全球数字网络高等智库技术专家王东临博士指出:存储行业的分布式存储是中心化存储的一种类型,区块链行业的分布式存储是去中心化存储,二者不是一回事,IPFS是没有对文件进行加密处理和碎片化处理的,这些都是中国矿工给加的戏,都是虚假宣传。您是如何看待的?
贾永政:分布式存储和去中心化存储是两个概念,不是通过行业来区分的。去中心化的存储一定是分布式的。存储行业和区块链行业也是不分家的,区块链需要存储的基础设施予以支持。关于IPFS是没有对文件进行加密处理和碎片化处理的,这些都是中国矿工给加的戏,都是虚假宣传。最原始的协议确实没有,感谢王博士的指正!
Q3
存储行业会在很多行业存在刚需,是否和defi一样会引起新的趋势呢?
贾永政: 我更看好存储行业。无论是现代存储技术的发展还是IPFS,都有很大的潜力。Defi对于区块链行业也有重大贡献。
Q4
Filecoin测试网上线再次推迟,为什么会这么难呢?
贾永政:我觉得Filecoin的机制设计是一件很复杂的事情,所以在系统测试中会遇到一些问题。所以个人对Filecoin目前的技术路线持保留态度,但是IPFS的系统激励是一定要有的。
(感谢以上单位支持)
本期链世纪财经对话分布式存储No.6至此告一段落啦!下期我们再会!
END
以上是关于聚英国际对话分布式存储:贾永政博士——人工智能与区块链上的存储和计算的主要内容,如果未能解决你的问题,请参考以下文章
分布式存储专题研究报告聚英国际:分布式存储,未来存储的刚需!
链世纪对话系列No.8中科曙光存储专家张记华:IPFS分布式存储布局规划
大陆节点禅茶论道,共享分布式存储最新资讯——大陆节点新版APP上线啦!