视频处理基础知识整理

Posted dinging006

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了视频处理基础知识整理相关的知识,希望对你有一定的参考价值。

一,ITU-R BT.656

ITU-R BT.656 8/10位数据传输;不需要同步信号;串行数据传输;传输速率是601的2倍;先传Y,后传UV。行场同步信号嵌入在数据流中。包含三部分 :
①:视频信号 
②:定时基准信号:

有两个定时基准信号,一个在每个视频数据块的开始(Start of ActiveVideo,SAV),另一个在每个视频数据块的结束(End of Active Video,EAV);每个定时基准信号由4 个字的序列组成,格式如下: FF 00 00 XY (16 进制)头三个是固定前缀,第4 个字包含定义第二场标识、场消隐状态和行消隐状态的信息。XY(MSB9-0)[1,F,V,H,P3,P2,P1,P0,0,0]

③:辅助信号:

辅助数据信号可以以10 比特形式只在行消隐期间传送,还可以以8 比特形式只在场消隐中的行的有效期间传送。

656输出的是串行数据,行场同步信号嵌入在数据流中;

 

ITU-RBT.656视频标准接口PAL制式(720*576)每场由四部分组成。

●  有效视频数据,分为奇场和偶场,均由288行组成。每行有1440个字节,其中720个字节为Y分量,360个字节为Cb分量,360个字节为Cr分量。Y分量的取值为16~235;Cb和Cr分量的取值为16~240。

●  水平消隐,有280个字节。

●  垂直消隐。

●  控制字。

对于有效数据行,其格式如图1所示。EAV和SAV为嵌入式控制字,分别表示有效视频的终点和起点。EAV和SAV均为4个字节构成,前3个字节FF、00、00为固定头,“XY”为控制字。“XY”的8个bit含义如下:

●  Bit7(Const),常数,总为1。

●  Bit6(F),场同步信号,表示该行数据处于奇场还是偶场。

●  Bit5(V),垂直同步信号,表示处于场消隐区间还是正程区间(有效数据行)。

●  Bit4(H),水平同步信号,表示是“SAV”还是“EAV”。

●  Bit3-0(P3P2P1P0),纠错位。P3=V(XOR)H;P2=F(XOR)H;P1=F(XOR)V;P0=F(XOR)V(XOR)H。

 

BT656

itu-r bt.656定义了一个并行的硬件接口用来传送一路4:2:2的YCbCr的数字视频流。视频流的分辨率为720×576像素的d1格式。我们需要发送的视频数据源通常是经过mpeg2压缩的,分辨率为352×288像素的cif格式。在输出到显示终端前,处理器需要对cif格式的图像数据插值为d1(720×576像素)格式,然后再通过itu-r bt.656并行的硬件接口输出给视频编码器。在这种前提下,可以利用一个itu-r bt.656的硬件接口传输4路不同的cif格式的视频数据流,然后在接收侧通过fpga(现场可编程门阵列)将4路视频数据流分离、插值生成d1格式的数据输出给视频编码器。通过该方式,可以克服某些视频处理器输出端口的限制,使视频输出端口扩展为原来的4倍。同时,由于使用fpga进行插值运算,分担了一部分视频处理器的工作量。

 

 

二,帧 , 场 === 模拟视频信号采集的处理

 

凡是做模拟信号采集的,很少不涉及BT.656标准的,因为常见的模拟视频信号采集芯片都支持输出BT.656的数字信号,那么,BT.656到底是何种格式呢?
      本文将主要介绍 标准的8bit BT656(4:2:2)YCbCr SDTV(标清)数字视频信号格式,主要针对刚刚入门模拟视频采集的初学者入门之用。

1. 帧的概念(Frame)

    一个视频序列是由N个帧组成的,采集图像的时候一般有2种扫描方式,一种是逐行扫描(progressive scanning),一种是隔行扫描(interlaced scanning)。对于隔行扫描,每一帧一般有2个场(field),一个叫顶场(top field),一个叫底场(bottom field)。假设一帧图像是720行,那么,顶场就包含其中所有的偶数行,而底场则包含其中所有的奇数行。

 

2. 场的概念(field)   

    注意,上面提到顶场和底场,用的是“包含”二字,而不是说完全由后者组成,因为在BT.656标准中,一个场是由三个部分组成的:

   场 = 垂直消隐顶场(First Vertical Blanking) + 有效数据行(Active Video) + 垂直消隐底场(Second Vertical Blanking)

    对于顶场,有效数据行就是一帧图像的所有偶数行,而底场,有效数据行就是一帧图像的所有奇数行。顶场和底场的空白行的个数也有所不同,那么,对于一个标准的 8bit BT656(4:2:2)SDTV(标清)的视频而言,对于一帧图像,其格式定义如下:

 

   由上图可以知道,对于PAL制式,每一帧有625行,其中,顶场有效数据288行,底场有效数据也是288行,其余行即为垂直消隐信号。为什么是288行?因为PAL制式的SDTV或者D1的分辨率为 720*576,即一帧有576行,故一场为288行。

    由上图我们还可以知道,顶场有效数据的起始行为第23行,底场有效数据的起始行为第335行。

另外,上图中的 F 标记奇偶场,V标记 是否为垂直消隐信号。

 

3. 每一行的组成(Lines)

    下面说明每一行的组成,一行是由4个部分组成:

   行 = 结束码(EAV) + 水平消隐(Horizontal Vertical Blanking) + 起始码(SAV) + 有效数据(Active Video)

    典型的一行数据组成如下图所示:

 

    起始码(SAV)和结束码(EAV),它是标志着一行的开始结束的重要标记,也包含了其他的一些重要的信息,后面将会讲到。

为什么一行中的有效数据是 1440 字节? 因为PAL制式的SDTV或者D1的分辨率为 720*576,即一行有720个有效点,由于采集的是彩色图像,那么一行就是由亮度信息(Y)和色差信息(CbCr)组成的,由于是YCbCr422格式,故一行中有720列Y,720列CbCr,这样,一行的有效字节数就自然为 720 x 2 = 1440 字节了。

 

4.  EAV和SAV

    EAV和SAV都是4个字节(Bytes),由上面的图可以知道,SAV后面跟着的就是有效的视频数据了。那么,EAV和SAV的格式是怎么样的呢?

    EAV和SAV的4个字节的格式规定如下(下面以16进制表示):

    FF 00 00 XY

    其中,前三个字节为固定的,必须是FF00 00,而第4个字节(XY)是根据场、消隐信息而定的,其8个bit含义如下: 1 F V H  P3 P2 P1 P0

    其中,F:标记场信息,传输顶场时为0,传输底场时为1

    V:标记消隐信息,传输消隐数据时为1,传输有效视频数据时为0

    H:标记EAV还是SAV,SAV为0,EAV为1

    而 P0~P3为保护比特,其值取决于F、H、V,起到校验的作用,计算方法如下:

 

 

三,奇数场和偶数场:

 

现行的电视制式都采用隔行扫描方法,一帧图象分为奇数场和偶数场两场。在高分辨率数字图象系统中,通常都要对视频信号的奇偶场进行识别。,视频信号中奇数场和偶数场的唯一区别是:奇数场的场同步信号与该场的第1个行同步信号同时出现,偶数场的场同步信号比该场的第1个行同步信号提前半行(32 s)出现。

     电视使用的PAL-D制采用的是隔行扫描方式,隔行扫描时电子束首先从左到右、从上到下扫描所有的单数行形成一场图像,然后电子束又回到顶端,再次从左到右、从上到下扫描所有的双数行形成另一场图像。这两个垂直方向交换显示的扫描场构成每一帧完整的画面,其中每个扫描场只包含扫描图像总行数的一半。我们把其中一个扫描场全部是单数行的称为奇场或上场;把另一个扫描场的全部是双数行的称为偶场或下场。对于PAL制信号来讲,每秒扫描50场(即25帧)。

    由于隔行扫描存在奇偶场的问题,如果我们在节目制作时没有“场”的意识,把奇偶场的顺序弄反了,对最终作品的输出质量有很大的影响,作品在监视器上播放时会出现抖动,变形,边缘不清晰等现象。那到底是奇场优先,还是偶场优先呢?不同类型的视频编辑卡,场的优先顺序是不一样的。我们只要将采集的视频内容导入视频编辑软件中,查看其属性,即可知道哪一场优先了。在实际操作中如果永远用同一类型的卡采集素材,则只需要检测一段并记住它(upper或 lower),后面的素材就可以跳过检测直接设置你认为正确的即可。但对不明来源的素材(比如别人做的带“场”的三维,另外的采集卡采集的视频素材)等等,仍然需要检测。










以上是关于视频处理基础知识整理的主要内容,如果未能解决你的问题,请参考以下文章

视频图像处理基础-获取图像的仿真数据流

视频和视频帧:视频和帧基础知识整理

基础学习笔记之opencv:实现将图片生成视频

大数据学习路线,从Linux基础到大型网站高并发处理项目实战

MongoDB知识整理

音视频开发必备基础知识点整理