MPEG VCM
Posted Dillon2015
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MPEG VCM相关的知识,希望对你有一定的参考价值。
传统是视频编码是针对人眼视觉进行优化的,目的是在保持人的主观失真不增加的情况下降低码率。而现在越来越多的视频需要进行机器分析,而人只需要看机器分析的结果。因此MPEG成立VCM(Video Coding for Machines)工作组探索新的标准,在不降低机器处理性能的情况下降低码率。这里的机器处理任务包含多种计算机视觉任务,包括目标检测、目标跟踪、实例分割、姿态估计等。(公众号后台回复“VCM”获取相关资料)
简介
MPEG于2019年7月成立VCM工作组,专门研究针对机器处理的视频编码。VCM工作组的任务可以总结如下:(1)定义用例,指定机器视觉和人眼/机器混合视觉的需求;(2)收集带标签的数据集和评估方法;(3)征集特征压缩、面向人机的视频表征和压缩的提案;(4)开发一个框架用于检验和比较不同的技术方案;(5)开发面向机器处理的视频编码标准。
MPEG VCM
VCM致力于制定一种新的标准来规范化码流格式,这里的码流既可能是视频流也可能是提取的特征流。Fig.1是VCM可能的架构。
对于特征流,VCM的特征流编码包括特征提取、特征转换/封装、特征编码几步。其中特征提取和表示需要使用神经网络。
通过各模块协作,工作组创建了3种处理流水线来应对各种使用场景,用于研究和标准化的早期工作。
使用场景
MPEG VCM确立了6种使用场景,其中3种比较典型。
a)智慧交通
为了在边缘进行实时的物体检测、实例分割、车道检测、交通监控等任务并作出驾驶动作,不同基础设施上的传感器需要与交通工具,以及不同交通工具间需要进行特征的交流。在必要的时候这些视频也需要重建出来供人观看。此外,在一些场景中可能还存在一些非可见光图像如红外图像和激光雷达图像。
b)智慧城市
随着物联网IoT的发展,在不同设备间存在大量连接用于通信。典型的智慧城市应用包括交通监控、流量检测和预测、交通流预测和资源调度。视频监控系统是智慧城市的一部分,主要应用的机器视角任务包括目标检测、实例分割、关键点检测等。在必要的时候这些监控视频还需要重建出来供人观看。
c)智能内容检测
互联网上有大量的视频和图像内容,对于保护特定年龄(18岁以下)的用户免于接受不适宜的内容是个巨大挑战。传统的人工筛查费时费力,使用机器视觉技术能帮助解决这个问题。主要应用的机器视觉任务和监控系统类似。
需求
基于上面的使用场景,VCM工作组对于未来的VCM标准提出了关键需求。
a)高效的压缩性能
视频或特征的码流大小在效果不变的情况下要小于传统的视频编码方法。
b)能支持一种或多种认为
生成的码流要能用于不同的场景。
c)支持多种任务性能评价
对于不同的机器视觉任务,编码需要支持不同的性能评价。
此外,工作组还提出了以下可选的需求。1)码流既能支持机器处理也能支持人眼观看。2)编码要支持将部分机器视觉任务部署到前端设备,神经网络中间层输出可以压缩后传输到云端服务器。3)隐私保护,码流可以根据不同的隐私权限提供不同级别的重建视频。
处理流水线
VCM工作组提供了三种流水线形式,如Fig.2。
流水线1:在这种方式中视频在被传输和存储前首先被编码器压缩成码流,解码器获得码流后将其解码为视频送入机器视觉处理任务。在这种流水线中可以直接利用传统的视频编码框架。VVC的基于神经网络的视频编码就是使用这种方式。
流水线2:在这种方式中用于机器视觉任务的神经网络被分为两部分,第一部分在边缘设备中,第二部分在服务器上。有两种可选的方法,方法1是将网络1提取的特征封装后编码如Fig.2a所示。方法2是直接将网络1提取的特征编码,如Fig2.2b所示。
流水线3:这种方式用于人机共判场景,流水线上面部分是流水线2的简化版,下面部分用于编码视频输入包括原始视频和提取的特征。
除了上述三种流水线,其他可能的工作方式也可以向工作组提交。
评价方法
为了比较不同方法,VCM建立了一个评价框架包括机器视觉任务、数据集、指标和anchor生成方法。
机器视觉任务
基于前面的讨论,有以下几种典型的机器视觉任务,
数据集
VCM工作组指定了下面5个数据集,
1)OpenImageV6:该数据集用于目标检测和目标分割。含有20000幅图像,为了减少计算时间只选用其中5000幅。注意,用于目标检测和目标分割的5000幅并不相同。
2)FLIR:该数据集包括RGB图像和红外图像,可用于自动驾驶和辅助驾驶的目标检测。实验显示在低光线下红外图像检测效果优于RGB图像,所以VCM只选用其中的红外图像。
3)HiEve-10:HiEve数据集包含大量的姿态、复杂行为的标签和长时间轨迹,可用于轨迹跟踪、行为识别和字体估计任务。HiEve中只有10个序列可以商业使用称为HiEve-10,VCM选择其中的7个。
4)TVD:开源数据集。
5)SFU-HW-Object-v1:含有18类物体,可用于目标检测。
单任务评价指标
不同的机器视觉任务需要使用不同的评价指标,如下所示。
这些指标是评价机器视觉任务的性能,还需要评价码流的大小。VCM使用BPP评价码流大小,
根据BPP和表2指标,可以绘制RD曲线。
多务评价指标
对于支持多种任务的码流,例如人机共判场景,可以使用加权处理。
是机器视觉任务的失真, 是人眼失真。
感兴趣的请关注微信公众号Video Coding
以上是关于MPEG VCM的主要内容,如果未能解决你的问题,请参考以下文章
JPEG/M-JPEGH.261/H.263/H.264MPEG-1MPEG-2MPEG-4编码方式的区别与联系
JPEG/M-JPEGH.261/H.263/H.264MPEG-1MPEG-2MPEG-4编码方式的区别与联系
从python内存中的MPEG(.ts)文件中提取音频,而不将MPEG写入文件