一文读懂 XFS的分布式数据湖

Posted 迂704

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一文读懂 XFS的分布式数据湖相关的知识,希望对你有一定的参考价值。

在这里插入图片描述
18年,百度创始人李彦宏表示,中国人对隐私问题更加开放,会愿意用自身隐私来换取更便捷的互联网服务。他还同时表示,网络搜索数据的80%都在企业手中,要实现"指数级增长"。不久后,Facebook泄露5000万用户信息的事件也一下将Facebook推到了风口浪尖。似乎不论中外,全球的互联网巨头对用户隐私的态度都是熟视无睹?
回顾整个信息时代,其实从网络诞生的那一天起,我们的隐私就不完全属于自己了。从18年开始,就有不少区块链项目开始研究隐私问题了,只不过还处在摸索尝试阶段,对隐私数据的维度和计算并没有清晰的划分,但却指出了一条区块链技术应用的发展方向。
在今天,好好回顾一下这些项目,为我们指明了一条今后的道路。
那就是目前的区块链隐私保护这一块,想要成功建立隐私防护墙,就得先建立隐私计算的分布式数据湖。因为数据存储在数据库里,并没有产生任何价值,而经过深度学习训练的数据才会拥有价值。

数据湖是什么

什么是数据湖?
在这里插入图片描述

数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。早期企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。
最开始的时候,每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。随后数据集市应运而生,应用程序产生的数据存储在一个集中式的数据仓库中,可根据需要导出相关数据传输给企业内需要该数据的部门或个人。
然而数据集市只解决了部分问题。剩余问题,包括数据管理、数据所有权与访问控制等都亟须解决,因为企业寻求获得更高的使用有效数据的能力。
为了解决前面提及的各种问题,企业有很强烈的诉求搭建自己的数据湖,数据湖不但能存储传统类型数据,也能存储任意其他类型数据,并且能在它们之上做进一步的处理与分析,产生最终输出供各类程序消费。
如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。
企业对数据湖寄予厚望,希望它能帮助用户快速获取有用信息,并能将这些信息用于数据分析和机器学习算法,以获得与企业运行相关的洞察力。
简单地说,**数据湖最突出的功能就是数据交互,它能处理关键的数据访问和信息追踪,对数据传输和决策分析能提供很大的帮助。**这也是理想中的去中心化模式。

理想的去中心化结构

没有去中心化就谈不上隐私,去中心化也很简单,就是数据分散在任何地方,在每一个参与者的终端设备里。
在这里插入图片描述
现在对于冷数据的安全保护基本都是到位的,因为冷数据是长期存储在我们的硬盘或闪存里面,只有需要的时候才会读取。而短时数据就不同,它也叫热数据,最典型的热数据就是缓存。以缓存为例,我们的电脑、手机几乎随时随地都要使用缓存,也在不停地生成缓存,这是最容易被平台拿到手的数据。
然而在XFS的去中心化数据结构中,即使是热数据也能得到很好的隐私保护。这是因为XFS的数据结构里,数据是分布式加密的,APP想要使用,必须提交申请,由用户决定是否授权。
除了缓存数据之外,还有我们特别重要的隐私数据需要得到保护,比如手机号、密码、邮箱等待。这些数据其他用户是无法查看的,但最重要的是要让平台也无法查看。XFS通过隐私ID、匿名访问权等设定,可以很好保护用户的重要数据不被任何人查看。

XFS的数据湖

互联网大数据技术早已和云计算融合多年,在传统云计算里,AI需求的数据湖对数据的控制已经变得很简单,进展到了SaaS级别。
这个逻辑把分布在各处的数据,最终在数据服务上体现了价值,这是XFS去中心化系统即将实现的。如果只是简单的把数据控制在用户手里,那用户仍只是体验了平台的服务,而并非将数据可以变现,虽然说数据代币化就可能有交易价值,但这种交易价值暴力程度远不及在人工智能里实现的产业价值,而FIXCoin则是XFS上的智能代币,能通过AI智能进行深度学习,不断完善数据规则。
例如,如果微信去中心化了,我们在微信的行为数据就再也不会直接拿走被利用到广点通里,你的朋友圈里不会出现“你刚刚和其他人说过的”你想买的物品,也不会被粗暴的推荐某些产品。这是XFS在社交领域的规划之一。

屈指可数的数据湖

数据湖这么好,为什么应用却这么少?
我们知道区块链本身就是一种大数据集群的模式,一个区块连着下一个区块,数据量想不大都难。然而想要创建数据湖,不仅要数据量大,还要超强的算力、存储、算法等等,而XFS能行就在于其分布式存储系统能提供高出数倍的聚合IOPS和吞吐量,另外可以随着存储节点的扩容而线性增长,专用的元数据模块可以提供非常快速精准的数据检索和定位,满足业务快速响应的需求。再加上XFS拥有交易处理分层的概念,可以很好地生成数据的权益证明,完成隐私计算。
因为隐私而选择区块链,因为希望通过数据产生价值而选择XFS,那么这个选择是无比正确的。XFS会给数据赋予价值,并让这份价值回归到用户身上,用户从待宰的羔羊一跃成为主人翁。XFS为所有想要实现数据自由的人而存在。

以上是关于一文读懂 XFS的分布式数据湖的主要内容,如果未能解决你的问题,请参考以下文章

一文读懂,XFS系统激励层FIXCoin经济模型

一文读懂,XFS中你必须掌握的密码与区块链理论术语

一文读懂云原生数据湖体系

一文读懂XFS系统如何确保用户数据安全和隐私

一文读懂,XFS系统的存储价值

一文读懂数据中台数据平台数据仓库数据湖