边缘计算:分布式存储的另一种可能
Posted 云南富冠经济信息咨询
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了边缘计算:分布式存储的另一种可能相关的知识,希望对你有一定的参考价值。
根据有关统计,我们平均每天发送了5亿条推文、3000亿封电子邮件,每天在Facebook上创建了4 PB的数据,每个连接的汽车都会创建4 TB的数据,进行了50亿次搜索。此外,一些相对落后的国家及地区还没有接入互联网,所以互联网的用户仍然会呈爆发式增长,互联网下产生的数据也毫无疑问会呈几何倍数增长。预计到2025年,全球每天将创建463EB的数据。
为什么需要边缘计算
1.数据存储需求
移动设备增长
网络建设加快
5G 流量爆发
谈到分布式存储,我们有一个绕不开的概念,那就是负载均衡。负载均衡构建在原有网络结构之上,它提供了一种透明且廉价有效的方法扩展服务器和网络设备的带宽、加强网络数据处理能力、增加吞吐量、提高网络的可用性和灵活性。简单来说,负载均衡就是将数据合理、有效的分布到各个存储节点,最大限度的利用每个存储节点。
数据分布,主要就是数据分片,它解决了确定数据位置的问题。
在设计分布式存储算法时,我们主要考虑数据均匀、数据稳定、节点异构性、隔离故障域和性能稳定性等几个方面。
数据均匀:
分布式存储一般都是多台设备并行运作,这就要求在存储数据的时候尽量保证数据分配合理,例如说:有100G的存储数据,5个存储节点,就要尽量让每台设备存储20G的数据,而不是让1台设备存储100G,其它4台闲置;同时,当访问的数据量过大时,要保证每个节点的访问量均衡。举个例子,如果在双十一当天,用户同时访问同一台服务器,阿里的服务器可能会崩坏,所以必须要让服务器分摊用户的访问,而不是让一台服务器执行这些操作。
数据稳定:
数据的稳定性也是非常重要的一点,关于数据的稳定性,我们同样举例子,当有100G的存储数据,合理的存储在5个节点上,如果有一个存储节点发生了故障,那么这100G的数据是要重新分配到这4个节点上吗?如果这100G的数据重新分配到这4个节点上,可能会让存储的数据不稳定;为了保证数据的稳定性,最好的方法是,保持正常节点存储的数据不改变,而故障节点存储的数据重新分配到正常的节点上。
节点异构:
不同的硬件设备,性能可能天差地别,如果每台设备分到的数据量、用户访问量都差不多,本质就是一种不均衡。
隔离故障:
当数据进行备份时,不能让数据及备份数据分布到同一个节点上。
性能稳定:
数据的存储、查询的效率要有保证,不能因为节点的添加和节点的删除造成性能的下降。
我们最常见的数据分布方式有三种:顺序分布、哈希分布和一致性哈希分布。
顺序分布
利用顺序分布我们能很容易的将大量的数据分成N片,只需要知道每一片的StartKey和EndKey。根据分片表我们可以很容易的定位任何一个Key。分片对于分布式系统来说是一个非常重要的功能,它意味着我们能不能将大量的数据分而治之。同时我们查找数据时也非常方便,顺序分布是从开始点一条一条往下读,直到结束点。但是这也让顺序分布存在一些问题,由于它是按照顺序写入和读取,所以实际上只有最后一片在增加或查找,其它的并没有参与工作(例如我们平时的log写入),这时候分布式系统退化成了单节点的系统,再也没什么优势可言。
哈希分布
为了解决顺序分布的问题,我们引入了哈希分布。哈希分布首先需要确定一个哈希函数,通过计算,将数据存储到响应的节点。
如果我们有4个节点,分别为节点1,节点2,节点3,节点4,ID的范围为[1,100],ID1{id : 1},ID2{id : 2},ID3{id : 3}......ID99{id : 99},ID100{id : 100},哈希分布会对现有的哈希函数进行计算,id%4(存储节点个数)结果为1存储到节点1,id%4结果为2存储到节点2,id%4结果为3存储到节点3,id%4结果为0存储到节点4,依次进行计算。哈希分布很好的解决了数据合理分布的问题,同时可以让所有的节点同时参与工作。但是哈希计算也有缺点,那就是稳定性相对较差。如果此时增加了一个节点5呢,这时候有5个节点,需要将之前存储到4个节点的数据重新进行计算,分配到这5个节点上。
一致性哈希分布
针对于顺序分布的的单节点工作与哈希分布的不稳定性,这里和大家介绍另一种分布——一致性哈希分布。一致性哈希是一个环形结构,将哈希函数映射到哈希环上,数据通常通过顺时针方向寻找的方式。同样就哈希分布的那个例子进行讨论。有节点1,节点2,节点3,节点4这四个节点,ID的范围为1-100,ID1{id : 1},ID2{id : 2},ID3{id : 3}......ID99{id : 99},ID100{id : 100}。id为1-25是会存储到节点1,id为26-50会存储到节点2,id为51-75会存储到节点3,id为76-100会存储到节点4。如果这时候在id为56的后面增加一个节点5,那么,id为51-56会存储到节点5,57-75依旧存储到节点3,其它几个节点的数据不需要改变。如果删除一个节点呢?现在我们删除一个节点2,那么节点2存储的数据会按照顺时针方向,将数据存储到节点3上面。
以上介绍的三种分布方式各有优、缺点,可以根据实际的需要选择最合适的分布方式。
高速带宽普及
2. 云计算的缺点
云计算的发展已经进行了很多年,但是其中面临的问题依旧存在。
安全性
高费用
即时性
3.边缘计算优点
相比传统云计算,边缘计算主要具有以下优势:
(1) 降低时延,分散带宽
(2) 位置感知,用户识别
(3) 本地部署,资源应用
(4) 闲置设备,资源共享
(5) 分散布局,节省费用
边缘计算与分布式存储
2.统一的数据通信协议
3.完整的内容确权机制
4.加密的编程权限控制
5.备用的节点数据设备
2.商业层面
1)激励体系
边缘计算需要更多的设备下沉到端,通过区块链上通证体系的激励,可以调动现有社会上存量资源加入边缘计算中,基于边缘技术本身分布式和通证激励体系可以有效地调动闲置的带宽和计算资源。
2)快速组网
由于可信激励的存在,可以快速调动现有闲置资源,基于区块链的边缘计算比传统建设周期更短,更容易形成组织网络,解决了资源的有效配置问题。
3)社区自治
持有边缘计算项目通证的矿工、节点和其他相关第三方在链上激励下很容易形成具有价值共识的社区,自治社区会为边缘计算项目的推广和宣传提供很大的帮助。同时,社区也可以逐步孵化出与现有边缘技术相关的新项目。
数据复制技术,可以保证存储在不同节点上的同一份数据是一致的。这样当一个节点发生故障后,可以从其他存储该数据的节点获取数据,避免数据丢失,进而提高了系统的可靠性。
根据数据一致性和可用性可以将数据复制分为三大类:
同步复制:可以保证主库与同库的数据为最新的数据,但是一旦从库没有响应,主库就无法就行数据的写入。(主库负责接收客户端的写入命令,再将数据写入从库;从库主要负责客户端数据的读取)
异步复制:即使从库落后,主库依旧可以正常写入,但是主库失效,未复制到从库的数据会丢失。
半同步复制:一个从库是同步,其它的从库未异步,保证主库和同步从库为最新数据。
同时根据数据的变更算法可以分为基于节点的复制与无节点复制两类。
基于节点的复制
基于节点的复制也称“主从”复制,分为单主复制与多主复制。
单主复制:客户端将数据写入命令发送给单个领导节点,领导节点接收命令,再将数据写入跟随节点。
多主复制:客户端将数据写入命令发送给多个领导节点,领导节点接收命令,再将数据写入跟随节点。
无节点复制
无节点复制也叫无主复制,客户端直接将数据写入命令发送给节点,节点接收到命令,直接进行数据的写入。
随着 5G、物联网、无人驾驶、AR/VR、AI 等众多新兴业务应用的快速涌现,对网络的传输容量、数据分发处理能力要求的不断提高,边缘计算将与分布式存储相辅相成,促进整个新兴产业的快速落地。
一.视频加速
智能视频加速业务主要是通过缩短加载时间和增加视频流畅度,来提升用户的QoE,(体验质量:Quality of Experience),并保证无线网络资源的最大利用。
VR/AR 游戏
现阶段 VR游戏体验不佳,其中游戏类VR 应用基本以本地重度游戏为主,用户眩晕问题依然存在,体验仍然不佳。因此,现阶段 VR 较多应用在营销场景,如远程看房、看二手车等营销场景较多,并且依赖于 Wifi及 4G 网络为主。
未来 5G设备实现直接边缘链访问,VR/AR时延问题解决,云 VR/AR 将大大降低设备成本,5G将显著改善这些云服务的访问速度,同时边缘计算将降低云服务的数据处理量,增强游戏的体验感。
远程医疗
远程诊断依赖 5G 网络的低延迟和高 QoS(Quality of Service)保障特性,例如无线内窥镜和超声波这样的远程诊断依赖于设备终端和患者之间的交互,患者反馈的敏感性需要低延迟网络才能满足其要求。其它应用场景包括医疗机器人、医疗认知计算、生物遥测,基于 VR的医疗培训,救护车无人机,生物信息的实时数据传输等,这些应用对网络计算和连接提出了很高的要求。
高清视频
5G的高速率特性加上边缘计算将使用户不仅能观看当下各类视频内容,还将随时随地体验4K以上的超高清视频。参考Intel 的《5G娱乐经济报告》,预计未来10年内 5G 用户的月平均流量将有望增长 7 倍,而其中90%将被视频消耗,预计到 2028 年,仅凭消费者在视频、音乐和游戏上的支出就会增加近一倍,全球总体量将达到近 1500 亿美元。
视频直播
视频直播是近年来发展最为迅猛的一种创新形式的在线视频娱乐,具有多人实时交互特性。中国视频直播行业的市场规模由2015年的64亿元增长至2019年的1082亿元,复合年增长率为103.0%。2019年至2024年,市场规模预计以23.4%的复合年增长率增长,至2024年达到3101亿元。如此规模巨大的市场,在直播方面会经常面临网络卡顿的现象,严重影响了用户的消费体验。
网络卡顿的原因有以下几点:
1)网络问题。接收方的网络环境不好,无法及时的获取服务器发送过来的信息,就会造成卡顿
2)主播端码率设置问题。如果主播端的视频上传码率太高,需要的网络速度就越高,服务器的传输速度达不到码率要求,自然给接收方传递时就会产生问题
3)距离CDN节点的物理距离。直播平台常用CDN来作为服务器储存、传递数据,其中CDN节点的分布会影响到直播画面的传递速度,如果接收方离CDN节点的距离太远的话,就会产生画面的卡顿,接受不良。
如果在视频中接入边缘计算网络,则会大大缓解视频卡顿的现象,提高用户的观感体验,推动整个直播行业的发展。
二、物联网
物联网作为下一个推动世界高速发展的“重要生产力”,近年来得以迅速发展。“物联网”概念是在“互联网”概念的基础上,将其用户端延伸扩展到任何物品与物品之间,进行信息交换和通信的一种网络概念。物联网是指通过各种信息传感设备,实时采集任何需要监控、连接、互动的物体或过程等各种需要的信息,与互联网结合形成的一个巨大网络。
智能设备上的 I/O 接口可以轻松连接传统工业系统和边缘网络,网关可以使用 Wi-Fi、以太网与终端进行连接和通信。另外,网关的处理能力支持中间设备对来自所有不同协议(从 ModBus、BACnet 到 Zigbee 等)的数据进行汇总、转换和标准化,再通过网关将数据传送到核心网上。边缘计算可以对连接的终端进行边缘分析,将决策转移到边缘,提供实时操作,还可以帮助管理网络问题,通过决定数据是否移动到边缘来解决网络带宽问题。
自动驾驶
随着汽车自动驾驶的不断进步,汽车自身所产生的数据将越来越庞大。根据数据显示,假设一辆自动驾驶汽车配备了 GPS、摄像头、雷达和激光雷达等传感器,则一辆自动驾驶汽车每天将产生约 4000GB 待处理的传感器数据。如何使自动驾驶汽车能够实时处理如此海量的数据,并基于大数据分析,形成安全驾驶行为的决策,这些都需要强大的计算能力做支持。考虑到自动驾驶对网络延迟要求很高,传统的云计算面临着延迟明显、连接不稳定等问题,这就需要一个强大的、稳定的、低延迟的车载边缘计算平台。事实上,如果我们打开现阶段展示的自动驾驶测试汽车的后备箱,会明显发现其与传统汽车的不同之处,都会装载一个“ 计算平台”硬件传感器, 用于处理输入的信号数据并输出决策。
高等级自动驾驶的本质是AI计算问题,车载边缘计算平台的算力需求至少在20T 以上。从实现功能来看,边缘计算平台在自动驾驶中主要负责解决两个主要的问题:
a. 处理输入的信号,像雷达、激光雷达、摄像头等;
b. 做出决策判断、给出控制信号
英伟达CEO 黄仁勋的观点是“自动驾驶本质是 AI 计算问题,需求的计算力取决于希望实现的功能。”,其认为自动驾驶汽车需要对周边的环境进行判断之后再作出决策,到底要采取什么样的行动,其本质上是一个 AI 计算的问题,车载端必须配备一台 AI 超级处理器,然后基于 AI 算法能够进行认知、推理以及驾驶,要实现L3 级的自动驾驶起码需要20 个 teraflops(每秒万 亿次浮点运算)以上的的计算力级别。
智能安防
安防产业智能化升级是行业发展的大趋势,后端智能化以及前端智能化是厂商针对智能化升级的两种并存的解决方案。其中,前端智能化的核心功能是为后端提供高质量、初步结构化的图像数据,其主要作用有两点:
1)提升部分智能分析应用的实时性;
2)节省带宽和后端计算资源。
典型的前端智能摄像头内置深度学习算法,一方面可以在前端完成人脸定位和质量判断,有效解决漏抓误报问题,同时拥有较好的图像效果;另一方面可以输出编码后的网络视频,支持输出非压缩、无损无延时的视频流图像,这样可以为大型用户节省服务器成本和带宽,在同等服务器数量和计算能力的情况下能够接入更多线路摄像头。
后端智能化产品的核心功能则是利用计算能力对视频数据进行结构化分析。出于满足实时性处理的需求,以及缓解后台存储的压力,厂商们会越来越将算力前置。以人脸识别为例,传统的人脸识别产品都是采用前端摄像机抓拍图片, 后端服务器计算比对的模式,而前端智能的模式下,智能化的摄像机可以不依托服务器而实时进行图像处理、人脸识别,极大提高了识别效率以及后端存储的效率,前端智能化的趋势意味着产业链上下游将发生价值转移。整个安防智能化系统对于后端系统的依赖程度将进一步降低,后端价值将部分转移到前端,前端的价值将大幅提升。
国内安防智能前端的市场规模有望突破1500 亿。从产业调研结果来看,2018年以来,主流深度学习摄像头芯片开始成熟量产,有效解决目前限制前端智能摄像头放量的计算芯片瓶颈。按照2021年智能摄像头渗透率达到45%测算,我们预测国内智能安防前端硬件产品空间在2021 年预计将超过1500 亿元。
低延时工业级应用
工业高精度控制对时延和可靠性的敏感度极高,无论是中国、韩国和日本的运营商,都非常关注5G 新业务中工业级客户(2B)的价值。这些行业市场包括运输、物流、能源/公共设施 监测、金融、医疗和农业。实现工业国产自动化、无线化和智能化,典型场景包括视频监控、 机器人控制、自动巡查安防等。
机器人控制
参考《华为 5G 白皮书》,同步实时协作机器人要求小于 1 毫秒的网络延迟。到 2025 年,预计全球状态监测连接将上升到 8,800万,全球工业机器人的出货量也将 从 36万台增加到 105万台。
馈线自动化
当通信网络的延迟小于 10ms 时,馈线自动化系统可以在 100ms 内隔离故障区域,这将大幅度降低发电厂的能源浪费。参考华为 5G 白皮书,从 2022年到 2026 年,预计 5G IoT 的平均年复合增长率(CAGR)将达到 464%。ABI Research 的预测数据,全球配电自动化市场将从2015年的130亿美元增加到 2025年的 360 亿美元。
无人机巡检
配备无人机进行基础设施、电力线和环境的密集巡检是一项新 兴业务,LiDAR扫描所产生巨大的实时数据量将需要>200Mbps的传输带宽。ABI Research 的估计,小型无人机市场将从 2016年的 53 亿美元迅速增长到 2026 年的 339 亿美元,包括来自软件、硬件、服务和应用服务的收入。
三、CDN应用
BMJ分布式存储
注:此文章来源于网络,如有侵权,请来电告知。
以上是关于边缘计算:分布式存储的另一种可能的主要内容,如果未能解决你的问题,请参考以下文章