视频时代的大数据：问题挑战与解决方案

Posted 2022-04-05 大数据v

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了视频时代的大数据：问题挑战与解决方案相关的知识，希望对你有一定的参考价值。

导读：视频大数据云边协同解决方案。

作者：韩锐刘驰

来源：大数据DT（ID：hzdashuju）

01 介绍

人们所观察的世界无时无刻不在改变，造就了“视频”相比于文本等类型的数据更具表现力，包含更加丰富的信息。如今，能够产生视频的数据源及应用场景愈发多样，视频数据的规模不断增长，视频大数据成为支撑诸多行业技术发展的热点方向。

1. 交通摄录

城市化的快速发展导致机动车数量持续激增，也因此造成了诸多的交通问题。

一方面，由于时间、天气、大型事件等多方面的因素，城市道路上的交通流量持续变化，尤其是繁华地带的路口，经常汇聚着较多的待通行车辆。

如何第一时间获取交通流量信息、监测城市交通状况，正是交通摄录系统所需解决的问题。通过摄录视频流的实时收集，城市交通控制中枢能够及时地获知流量异常情况，做出交通调度调整，以改善行车效率。

另一方面，人为驾驶的主观性导致违规事件的发生难以完全避免，而对检测的疏漏或延迟将不仅可能导致驾驶行为责任人自身规则意识的下降，升高未来的事故发生率，更有可能造成交通瘫痪，甚至重大的人身财产损失。

因此，广泛分布且实时视频采集的交通摄录系统具有极高的存在必要性，不断规范及约束车辆驾驶者的行为，同时对违规事件及交通事故在第一时间进行采集、上报，进行后续的处理。

目前，在部分城市的交通系统中，已经尝试采用更加智能化的交通摄录体系，例如对疲劳驾驶、违规通话等驾驶行为实时检测、智能判断，而无须人为干预。

密布于城市各个角落的摄像头组成的庞大的摄像系统基础设施带来的交通价值不言而喻，但对交通数据处理系统提出了严峻的挑战。

一方面，该系统需要具备低延迟的处理性能，保证异常事件发生时能够及时地进行分析、处理以及后续操作。另一方面，基础设施中数量巨大的输入源是传统单一视频处理系统所难以应付的。

由于该系统不仅需要采集、存储视频，而且在迈向智能化发展的路上，需要对它进行预处理、帧解析、事件模式匹配、异常检测上报等操作，因此对于极多输入源的同时处理，是当前所面临的一大难题。

2. 车载摄录

对于传统机动车而言，行车记录仪的出现为广大驾驶者带来了多方面的保护。

一方面，共享出行的专车内、公共交通的车厢内，车内记录仪能够持续记录乘客及驾驶者的行为，检测车内状况。在发生异常事件时，记录仪能够提供准确的现场追溯，不仅为责任认定提供了有效的证据支撑，更为严重性事件的溯源剖析提供了第一手资料。

另一方面，用于私家车的前向记录仪则更为普遍。在车辆启动后，行车记录仪随之启动，以视频的形式持续地、完整地记录着行驶的整个过程，有效弥补了交通摄录系统不及之处，为驾驶者提供了多层面的安全保证。

对于新兴的智能车辆而言，包含360°环绕摄像在内的环境感知系统所发挥的作用更是举足轻重。摄像头之于汽车，就像眼之于人，提供了感知周遭环境的输入口。基于实时的环境图像，自动驾驶控制系统能够对采集到的视频进行处理、分析，并即时进行决策，控制车辆行为，在一定程度上，甚至完全地替代人为控制，极大地提升出行效率。

虽然车载摄录为传统及新兴机动车带来了强大的功能，但车辆本身的移动性为视频的数据处理提出了新的问题：

一方面，高移动性导致视频内容的变化极快，不同于固定物理位置的城市摄像头，车载摄录可能在极短时间内采集到完全不同的影像，这不仅包括物体本身的变化，还包含了移动导致的光线、角度等上下文环境的急剧变化，对于视频内容分析的准确性和灵活性要求更高；
另一方面，高移动性直接导致了网络通信连接的不稳定性，不同于有线光缆传输，无线网络传输的质量依赖于网络信号强度、带宽、信道实时负载等因素，造成基于无线网络的数据及任务的稳定上传过程变得愈发艰难。

3. 航空摄录

由于更高的摄入角度，基于航空器材的摄录系统通常具有更高的专业型和特殊性，同时带来了更加强大的功能性：

1）空地追踪

得益于不被道路交通所限，飞行器能够灵活、高效地追踪移动性目标，弥补地面追踪不便的缺陷，降低目标失踪率，为关键性任务提供支撑。

2）智慧农耕

传统农耕作业需要人工地亲力亲为，经历长周期的运作，包括观察并分析农田情况，调整作业策略，根据种植方案进行播种，以及后期灌溉、除虫等维护。由于务农者本身能力所限，这一系列的过程将十分耗费时间资源，效率较为低下，且无法准确地按照预期规范化操作细节，造成减产等损失。

相比于人力运作，基于航空器的作业方式能够带来极大的改善。通过航空摄录系统，能够直接以直观的视频形式采集农田情况，并基于农田数据处理系统进行视频分析，获取种植所需的多元化参数。随后，航空器能够携带种子、农药等基础资源，从空中直接进行均匀播撒，在短时间内覆盖大范围作业区域，实现人工难以达到的效率。

3）遥感

基于航空设备的自身优势，它能够在空中无接触地、远距离地探测、勘察各种复杂地形地貌，包括人们难以进入的野生地带、冰川、火山等。而视频的形式为人们提供了对于未知环境最为直观的感受，同时有利于数据处理系统进一步地科学分析、探索。

如今，由于基础设施以及无人控制技术的不断发展，航空摄录已经逐渐转向基于无人机的系统实现。无人机具有更低的制造成本、更小的体积、移动更加灵活等诸多优势，因此对于传统飞行器难以实现的场景，无人机具有更大的潜能。

同时，由于控制者本身从“机内”移动到了“机外”，相隔数百米甚至数百千米，因此，一方面，如何高性能地实现从无人机采集的实时视频到控制者的实时决策，需要解决视频采集技术、预处理技术、网络传输技术等诸多视频大数据系统所面临的问题；另一方面，由于无人机具备更加多元化的环境感知能力，例如无死角覆盖的实时摄录系统，因此无人机自主行为控制也是实现智能化发展的一个方向。但是，因此带来更高的视频处理性能需求，是传统设备端运算或者云端两层架构所无法实现的，需要云边协同高效架构的加入。

4. 智能设备

包括智能手机、平板计算机在内的智能设备，逐渐成为日常生产生活中与人们打交道最为频繁的物品。

一方面，智能设备本身所具备的拍照及录像能力，为人们的生活带来了更加丰富的记录方式。通过智能设备所拍下的照片、短视频、影片，能够方便地分享正在进行的游戏、欣赏的风景、有趣的宠物、令人深思的事件等。

另一方面，它能使得人们的生产、工作更加高效，尤其是在人们出行受限的特殊时期，众多的团队、企业开始使用基于视频会议的高效办公方式，继续原有的运作。

相比于其他的摄录系统，智能设备带来的摄录能力以及产生的视频大数据更加无处不在，更加贴近人们本身，同时也包含着更大的价值挖掘潜能。

5. 其他

远不止上述提及的应用场景，视频大数据几乎无处不在，例如：

1）安防监控

不同于交通摄录系统，安防监控带来的视频记录能力更多地用于环境采集，以实现生产生活日常运作的安全保障。在安防系统中，数据处理的低延迟、高吞吐特性尤为重要。根据用户预设的智能检测模型，摄像系统在采集到视频数据后，应在极短的时间内完成数据处理，并实现智能决策。

2）工业摄录

通过视频监控等方式，实时监测车间生产情况，基于视频大数据的分析，能够即时发现异常、调整设备等。

视频数据在各行各业的应用场景十分广泛，同时也带了极高的潜在分析价值，但由于它文件体积本身庞大，因此对数据处理系统的能力提出了更大的挑战。

02 问题与挑战

1. 问题

视频数据是非结构化数据，价值密度很低，且具有连续性、实时性等特点，视频大数据系统对数据相比传统具有更高的性能要求，这主要体现在以下几方面：

1）计算密集

对于视频流而言，一般需要进行信号处理、编码、解码等基础过程，转换为计算机内相应的存储格式，再对每一帧内容进行深入处理。

一方面，对于每一帧内容而言，可以将它看作类似于静态照片的图像，可通过一系列相关技术进行以下操作：

特征检测及提取：传统的Canny边缘检测算法、Harris角点检测算法、SURF算法以及SIFT特征、GIST特征等，基于深度学习的神经网络模型等，能够对图像中的边缘、转角等特征进行识别，支撑后续更加复杂的处理。
目标检测：针对特定的或者泛化的目标，例如物品、人体、面部等，通过特定算法进行检测，获知其存在性或位置。
目标分类：对于图像中出现的目标进行分类等。

不论是基于传统算法的图像处理方法，还是近年来愈发火热的深度学习处理方法，它的性能（例如准确率）通常与运算量直接关联，例如，对于深度网络模型而言，具备更高精度的模型通常具有更为复杂的网络结构、更为庞大的训练参数量，因此需要更高的算力（包括计算能力、存储能力等）进行推断。

另一方面，由于视频是每一帧连续组合而成的流式数据，因此对于视频流的处理将远高于静态图像处理的复杂度。

首先，为了捕获环境中更多的细节，以及为后续的算法提供更加精确的原生输入，视频采集系统通常追求更高的分辨率。如今，随着设备的不断升级迭代，4K甚至8K分辨率已经逐渐成为高质量视频的标准，这将大幅增加每一帧图像的体积，对运算系统性能提出更高的要求。

其次，为了能够在时间变化的过程中捕获更加顺畅的运动行为，视频采集系统通常会将帧率（即每单位时间内采集的图像帧数量）设置为设备能够接受的尽可能高的水平。因此，在单帧图像体积一定的情况下，更高的帧率意味着单位时间内的视频体积更大，这对数据处理系统会造成更大的压力。

此外，由于不同于静态图像的特点，视频流将具有更高的连续性、动态性，数据处理系统不应仅专注于每一帧内图像的信息，还应该具备分析帧与帧之间的动态变化性信息的能力。

在进行目标追踪时，需要对高帧率的连续视频画面执行算法，凭借实时性能检测目标物体，并定位目标位置。例如，在检测行人的过程中，人们的移动通常具有群体性，因此基于对行人运动轨迹的预测进而提升检测准确率，这是一个优化的潜在方向。

因此，计算密集型的视频流处理使得终端设备的计算能力、存储能力难以满足。

2）带宽需求高

分辨率、帧率等配置的不断提升，带来的不仅是对于计算系统的压力，同时也带来了对于网络传输系统的挑战：

每一帧图像的内容不断丰富，细节更加完整；
单位时间内的帧数不断增长，视频动态变化更加流畅；
视频源不断增加，针对同一物体的拍摄角度不再限于一个（例如足球比赛中环绕全场的大量摄录机位）。

这三点同时带来了不同维度的体积增长，进而导致了视频产生源发送至处理系统所在平台的网络带宽开销急剧增加。目前，在体积优化的情况下，智能手机以1080P分辨率、60帧/s帧率的配置录制1min视频的体积约为100MB；以4K分辨率、60帧/s帧率录制1min视频的体积约为440MB。

由此可见，在多采集源同时进行传输的情况下，网络基础设施将承受极大压力，同时，带宽占用带来的成本也使得用户难以承受。

2. 挑战

针对视频体积带来的带宽成本与通信压力，需要从多个维度进行分析，根据实际场景进行优化。例如图1-8给出了一种尝试方案：边缘节点对终端设备采集的原生高带宽视频进行预处理，通过局部压缩、裁切、去帧等方法，减小视频体积，并将加工后的视频流上传至云端进一步处理。但这种方法同样面临着一些技术挑战：

▲图1-8 一种云边协同视频大数据处理方案

1）计算任务卸载

普通计算任务通常能够通过划分获得低耦合的子任务，但视频流由于特殊性，为任务划分以及基于划分的卸载提出了更高的要求：

一方面，视频流本身体积庞大，这一特点使得该类型数据在不同平台之间的流动变得较为困难，每一次网络传输都需要付出较大的时间及服务成本；
另一方面，视频处理本身具有连续性，不同子任务之间可能具有较高的耦合程度，对任务的切分造成了困难，进而导致处理任务卸载至边缘平台、云平台时面临更多问题。

2）边缘平台资源

边缘平台相比于云平台，本身不具备海量的计算、存储等资源，因此对于计算密集型的视频流应用而言，难以提供无限制的处理能力。例如，用于处理视频图像的DNN通常具有百万甚至千万级的参数，这使得边缘平台中单一的计算节点可能难以负载。

对于用户而言，需要更加缜密地考虑云边协同处理方案，而不能简单直接地套用现有卸载策略。

3）边缘服务范围

处于网络中心的云平台能够对网络全局的计算请求进行处理，而边缘节点受限于服务范围，仅能够为一定区域内的用户提供服务。但与此同时，许多视频流应用的计算任务具有较高的持续性，需要平台为它提供不间断的计算服务，这对于移动性的视频源而言，将造成节点切换、任务迁移、服务稳定性等多方面影响。

此外，减小视频体积意味着可能造成视频的细节完整度降低，进而导致在用于目标检测、物体追踪等的深度网络模型准确率方面有所妥协，因此需要使用更加细粒度的优化方案来弥补画面细节减少带来的损失。

因此，在传统云平台的任务卸载方式俨然无法适应体积增长迅速的视频流处理应用的当下，如何利用云边协同平台进一步优化视频大数据处理性能，值得人们深入研究。

03 前沿研究

对于计算、存储以及网络传输能力的需求使得视频流处理系统需要采用新的计算服务模式来实现。目前，云边协同平台为它带来了希望，同时也面临着许多问题，不仅包括云边平台本身所面临的问题，也包含针对视频流处理应用的特殊挑战，学术界以及工业界的研究人员对此进行着不断探索。

1. 边缘环境的网络不稳定性

参考文献［62］针对边缘环境中对视频流图像处理任务影响较大的网络因素进行分析，考虑到无线通信信号强弱，提出了3种处理方案：

①本地执行；②完全卸载；③本地预处理（减小体积）后卸载至云边平台，并对不同模型的计算时间、计算能耗、通信时间、通信开销等多方面进行综合建模分析，权衡计算时间与能耗、通信时间与能耗，在不同信号强度时选择不同的最优策略完成图像处理任务。

2. 边缘节点的多租户特性

同一个边缘节点可能同时服务于不同的用户，但由于边缘平台的地理位置以及服务范围，这些用户可能具有相似或部分相似的视频流计算任务，尤其是基于深度神经网络模型的图像处理，不同的图像可能应用相同的模型或相同的子模型进行推断。

基于这个理念，Mainstream［63］框架基于迁移学习，对使用相同预训练模型的并发执行的视频处理任务进行分析，利用相同预训练层［作者称为共享茎干（share stem）部分］的一次计算，消除重复计算。

但由于不同的应用可能会对相同的预训练模型进行细粒度的优化训练以提升模型推断准确率，因此共享茎干的比重会随之降低，同时减慢了帧处理速率。为了解决这个问题，即动态权衡视频流处理速度与模型准确率，该框架包含3个部分：

1）M-Trainer：模型训练工具包，能够使得基于预训练模型进行训练优化的过程保留不同粒度级别的副本，同时产生不同级别模型的推断准确率等元数据；

2）M-Scheduler：使用训练时生成的数据，计算不同层（包括共享茎干）的运行时间开销，寻找全局最优策略；

3）M-Runner：提供应用运行时环境，动态选择不同级别的模型提供服务，实现共享茎干带来的计算量减少与准确率下降之间的权衡。该框架专注于并发视频流任务处理的场景，提供了从开发到部署运行的完整框架，但同时也为开发者的实现带来了一定难度。

3. 云边协同下的智能处理

深度学习技术为视频大数据处理带来了前所未有的性能提升，但包括深度神经网络在内的模型架构的复杂度使得它对于资源具有较高的要求，这表现在模型训练以及推断两方面：

1）模型训练

对于视频大数据应用的深度神经网络模型的训练而言，数据的规模和体积成为限制性能的一个重要因素。通常，模型训练阶段通常放置于拥有较多资源的平台而非在终端设备上运行，因此视频数据的传输将造成巨大的网络带宽开销。

CDC［64］框架实现了一个轻量级的自动编码器（AutoEncoder，AE），以及一个轻量的元素分类器（Elementary Classifier，EC）：

首先，CDC框架控制AE对数据进行压缩；随后，EC使用压缩后的数据以及数据标注进行梯度下降计算，调整自身参数集合；再者，AE基于自身压缩造成的损失与相应的EC的损失值共同优化自身参数，并设置削弱参数α，调整EC的损失对AE训练过程的影响权重，避免不收敛的问题；如此往复迭代，实现EC、AE相结合，EC指导AE的训练。

经过训练后的AE将具备内容感知的压缩能力，结合精度降低策略，实现传输到云端的较低的带宽开销。同时，云端能够评估网络状况，向边缘端反馈后续的图像压缩率。该框架以智能压缩的思路，对降低训练数据网络传输开销的方向进行了有价值的探索。

2）模型推断

同样是采用压缩策略，参考文献［65］从关键区域（Region Of Interest，ROI）的角度实现带宽与准确率之间的权衡。作者基于SORT、Hungarian等算法，在云端将包含目标物体的ROI坐标反馈至边缘端，边缘端基于multi-QF JPEG算法对ROI及非ROI区域进行不同质量程度的压缩，并将压缩后的数据发送至云端推断。

同时，基于Kalman Filter算法，该研究为每个目标物体建立一个行为预测模型，以抵偿边-云-边这一反馈传输过程的延迟。

4. 其他

参考文献［66］基于动态规划思想，在云端构建了一个动态数据模型，对固定视频流进行分析，并预测下一次可能发生的事件的时空位置，以对特定监控传感器进行带宽控制。

而参考文献［67］从多比特率视频流传输的角度出发，认为传统边缘缓存方法通常需要视频流行度符合特定分布，但实际场景下边缘节点覆盖区域小、用户移动性高、用户请求受移动设备上下文影响大。因此研究人员将该问题建模为0-1优化问题，利用多臂老虎机理论，设计了CUCB（C-upper置信区间）算法进行优化。

具体而言，该方法能够进行在线化的学习，根据用户需求实时地制定缓存模式和处理策略，可最大化视频服务提供商的利益，满足用户的服务质量要求。

此外，对于云边协同的视频处理，还能够应用全局统一的时空ID技术、视频编码与特征编码联合优化技术等，进一步对视频处理性能加以提高。

关于作者：韩锐，北京理工大学特别研究员，博士生导师。2010年毕业于清华大学并获优秀硕士毕业生，2014年博士毕业于英国帝国理工学院，2014年3月至2018年6月在中国科学院计算所工作。专注于研究面向典型负载（机器学习、深度学习、互联网服务）的云计算系统优化，在 TPDS、TC、TKDE、TSC等领域顶级（重要）期刊和INFOCOM、ICDCS、ICPP、RTSS等会议上发表超过40篇论文，Google学术引用1000 余次。

刘驰，北京理工大学计算机学院副院长，教授，博士生导师。智能信息技术北京市重点实验室主任，国家优秀青年科学基金获得者，国家重点研发计划首席科学家，中国电子学会会士，英国工程技术学会会士，英国计算机学会会士。分别于清华大学和英国帝国理工学院获得学士和博士学位，后在德国电信研究总院任博士后研究员，在美国IBM T.J.Watson研究中心和IBM中国研究院任研究主管。主要研究方向是智能物联网技术。

本文摘编自《云边协同大数据技术与应用》（ISBN：978-7-111-70100-2），经出版方授权发布。

延伸阅读《云边协同大数据技术与应用》

点击上图了解及购买

转载请联系微信：DoctorData

推荐语：在云边协同背景下，深入典型技术和实际应用全方位剖析云边协同大数据技术及其应用。

参考文献

［62］ Y G KIM, Y S LEE, S W CHUNG. Signal strength-aware adaptive offloading with local image preprocessing for energy efficient mobile devices［J］．IEEE Transactions on Computers, 2019, 69(1): 99-111.

［63］ A H JIANG, et al. Mainstream: Dynamic stem-sharing for multi-tenant video processing［C］．2018 USENIX Annual Technical Conference, 2018: 29-42.

［64］ Y DONG, P ZHAO, H YU, et al. CDC: Classification Driven Compression for Bandwidth Efficient Edge-Cloud Collaborative Deep Learning［DB/OL］．arXiv preprint arXiv: 2005.02177, 2020.

［65］ B A MUDASSAR, J H KO, S MUKHOPADHYAY. Edge-cloud collaborative processing for intelligent internet of things: A case study on smart surveillance［C］．2018 55th ACM/ESDA/IEEE Design Automation Conference (DAC), 2018: 1-6.

［66］ L TOKA, B LAJTHA, é HOSSZU, et al. A resource-aware and time-critical IoT framework［C］．IEEE INFOCOM 2017-IEEE Conference on Computer Communications, 2017: 1-9.

［67］ Y HAO, L HU, Y QIAN, et al. Profit maximization for video caching and processing in edge cloud［J］．IEEE Journal on Selected Areas in Communications, 2019, 37(7): 1632-1641.