FFmpeg音视频的基础名词解释

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FFmpeg音视频的基础名词解释相关的知识,希望对你有一定的参考价值。

参考技术A

是指视频文件在单位时间内使用的数据流量,也叫码率或码流率,通俗一点的理解就是取样率,是视频编码中画面质量控制中最重要的部分,一般我们用的单位是kb/s或者Mb/s。一般来说同样分辨率下,视频文件的码流越大,压缩比就越小,画面质量就越高。码流越大,说明单位时间内取样率越大,数据流,精度就越高,处理出来的文件就越接近原始文件,图像质量越好,画质越清晰,要求播放设备的解码能力也越高。
当然,码流越大,文件体积也越大,其计算公式是文件体积=时间X码率/8。例如,网络上常见的一部90分钟1Mbps码流的720P RMVB文件,其体积就=5400秒×1Mb/8=675MB。通常来说,一个视频文件包括了画面及声音,例如一个RMVB的视频文件,里面包含了视频信息和音频信息,音频及视频都有各自不同的采样方式和比特率,也就是说,同一个视频文件音频和视频的比特率并不是一样的。而我们所说的一个视频文件码流率大小,一般是指视频文件中音频及视频信息码流率的总和。以以国内最流行,大家最熟悉的RMVB视频文件为例,RMVB中的VB,指的是VBR,即Variable Bit Rate的缩写,中文含义是可变比特率,它表示RMVB采用的是动态编码的方式,把较高的采样率用于复杂的动态画面(歌舞、飞车、战争、动作等),而把较低的采样率用于静态画面,合理利用资源,达到画质与体积可兼得的效果。
我的理解码流就是视频/音频文件的每秒的大小,码率越高文件越大,呈现出来的失帧也就越低

采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用 赫兹 (Hz)来表示。采样率是指将模拟信号转换成数字信号时的采样频率,也就是单位时间内采样多少点。一个采样点数据有多少个比特。比特率是指每秒传送的比特(bit)数。单位为 bps(Bit Per Second),比特率越高,传送的数据越大,音质越好.比特率 =采样率 x 采用位数 x声道数.
采样率类似于动态影像的帧数,比如电影的采样率是24赫兹,PAL制式的采样率是25赫兹,NTSC制式的采样率是30赫兹。当我们把采样到的一个个静止画面再以采样率同样的速度回放时,看到的就是连续的画面。同样的道理,把以44.1kHZ采样率记录的CD以同样的速率播放时,就能听到连续的声音。显然,这个采样率越高,听到的声音和看到的图像就越连贯。当然,人的听觉和视觉器官能分辨的采样率是有限的,基本上高于44.1kHZ采样的声音,绝大部分人已经觉察不到其中的分别了。而声音的位数就相当于画面的颜色数,表示每个取样的数据量,当然数据量越大,回放的声音越准确,不至于把开水壶的叫声和火车的鸣笛混淆。同样的道理,对于画面来说就是更清晰和准确,不至于把血和西红柿酱混淆。不过受人的器官的机能限制,16位的声音和24位的画面基本已经是普通人类的极限了,更高位数就只能靠仪器才能分辨出来了。比如电话就是3kHZ取样的7位声音,而CD是44.1kHZ取样的16位声音,所以CD就比电话更清楚。
我的理解采样率就是每秒采集音视频的点,比如我们通常说的8k 16k与44100

比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second),比特率越高,传送的数据越大。在视频领域,比特率常翻译为码率 比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second),比特率越高,传送的数据越大。在视频领域,比特率常翻译为码率 !!!
比特率表示经过编码(压缩)后的音、视频数据每秒钟需要用多少个比特来表示,而比特就是二进制里面最小的单位,要么是0,要么是1。比特率与音、视频压缩的关系,简单的说就是比特率越高,音、视频的质量就越好,但编码后的文件就越大;如果比特率越少则情况刚好相反。比特率是指将数字声音、视频由模拟格式转化成数字格式的采样率,采样率越高,还原后的音质、画质就越好。
我的理解是比特率与采样率概念相同,不过采样率是压缩前的比特率是压缩后的

VBR(Variable Bitrate)动态比特率 也就是没有固定的比特率,压缩软件在压缩时根据音频数据即时确定使用什么比特率,这是以质量为前提兼顾文件大小的方式,推荐编码模式;

ABR(Average Bitrate)平均比特率 是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内,以每50帧(30帧约1秒)为一段,低频和不敏感频率使用相对低的流量,高频和大动态表现时使用高流量,可以做为VBR和CBR的一种折衷选择。

CBR(Constant Bitrate),常数比特率 指文件从头到尾都是一种位速率。相对于VBR和ABR来讲,它压缩出来的文件体积很大,而且音质相对于VBR和ABR不会有明显的提高。

帧速率也称为FPS(Frames PerSecond)的缩写——帧/秒。是指每秒钟刷新的图片的帧数,也可以理解为图形处理器每秒钟能够刷新几次。越高的帧速率可以得到更流畅、更逼真的动画。每秒钟帧数(FPS)越多,所显示的动作就会越流畅。
就是俗称的每秒多少帧,例如我们众所周知的动画24帧/每秒

就是帧大小每一帧就是一副图像。

在手机上呈现的画面,第一帧与第二帧的图像中肯定有很多相同的画面,比如在一个固定的场所,背景不动,只有人物移动的情况,这时只需要重新绘制人物的移动就可以,背景不用重新绘制。IPB帧就是用于处理这种情况。

I帧:帧内编码帧 ,I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)

P帧:前向预测编码帧。P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

B帧:双向预测内插编码帧。B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别(具体比较复杂,有4种情况,但我这样说简单些),换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累。

B帧的预测与重构

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。

1)B帧是由前面的I或P帧和后面的P帧来进行预测的;

2)B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量;

3)B帧是双向预测编码帧;

4)B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;

5)B帧不是参考帧,不会造成解码错误的扩散。

我找了篇文章,可以更好的理解H264
H264基础简介

在视频编码序列中,GOP即Group of picture(图像组),指两个I帧之间的距离,Reference(参考周期)指两个P帧之间的距离(如下图3.1)。一个I帧所占用的字节数大于一个P帧,一个P帧所占用的字节数大于一个B帧(如下图3.1所示)。

所以在码率不变的前提下,GOP值越大,P、B帧的数量会越多,平均每个I、P、B帧所占用的字节数就越多,也就更容易获取较好的图像质量;Reference越大,B帧的数量越多,同理也更容易获得较好的图像质量。需要说明的是,通过提高GOP值来提高图像质量是有限度的,在遇到场景切换的情况时,H.264编码器会自动强制插入一个I帧,此时实际的GOP值被缩短了。另一方面,在一个GOP中,P、B帧是由I帧预测得到的,当I帧的图像质量比较差时,会影响到一个GOP中后续P、B帧的图像质量,直到下一个GOP开始才有可能得以恢复,所以GOP值也不宜设置过大。同时,由于P、B帧的复杂度大于I帧,所以过多的P、B帧会影响编码效率,使编码效率降低。另外,过长的GOP还会影响Seek操作的响应速度,由于P、B帧是由前面的I或P帧预测得到的,所以Seek操作需要直接定位,解码某一个P或B帧时,需要先解码得到本GOP内的I帧及之前的N个预测帧才可以,GOP值越长,需要解码的预测帧就越多,seek响应的时间也越长。

DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。
这2个概念经常出现在音频视频编码和播放中,其实际意义是,PTS是真正录制和播放的时间戳,而DTS是解码的时间戳。
对于普通的无B桢视频(H264 Baseline或者VP8),PTS/DTS应该是相等的,因为没有延迟编码。
对于有B桢的视频,I桢的PTS依然等于DTS, P桢的PTS>DTS, B桢的PTS<DTS。
可以简单地这样理解:
若视频没有B帧,则I和P都是解码后即刻显示。
若视频含有B帧,则I是解码后即刻显示,P是先解码后显示,B是后解码先显示。(B 和P的先、后是相对的)。

上面说了视频帧、DTS、PTS 相关的概念。我们都知道在一个媒体流中,除了视频以外,通常还包括音频。音频的播放,也有 DTS、PTS 的概念,但是音频没有类似视频中 B 帧,不需要双向预测,所以音频帧的 DTS、PTS 顺序是一致的。
音频视频混合在一起播放,就呈现了我们常常看到的广义的视频。在音视频一起播放的时候,我们通常需要面临一个问题:怎么去同步它们,以免出现画不对声的情况。
要实现音视频同步,通常需要选择一个参考时钟,参考时钟上的时间是线性递增的,编码音视频流时依据参考时钟上的时间给每帧数据打上时间戳。在播放时,读取数据帧上的时间戳,同时参考当前参考时钟上的时间来安排播放。这里的说的时间戳就是我们前面说的 PTS。实践中,我们可以选择:同步视频到音频、同步音频到视频、同步音频和视频到外部时钟。

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

学习目标

  • 了解 FFmpeg
  • 学习 FFmpeg 工具的下载及环境配置
  • 了解 FFmpeg 工具的使用方式
  • 了解 FFmpeg play 的使用方法
  • 了解 FFmpeg paly 的音量设置、窗口设置、音量设置等设置方法

一、了解 FFmpeg

FFmpeg 是一个音视频处理的工具,通过 FFmpeg 可以对视频进行旋转、缩小、添加水印、截图、添加马赛克、直播推流、转化音频等操作。

在使用 FFmpeg 前需要了解一些专业术语,例如容器、媒体流、数据帧(包)、编解码器、复用、解复用这些概念释义如下:

  • 容器:容器是指一种特定格式的多媒体文件,例如 mp4、flv 文件等;
  • 媒体流:媒体流一般是指时间轴上的连续的数据,这些数据是需要连续的,如一段音频数据、一段视频数据等;
  • 数据帧:数据帧是指媒体流中的最小处理单元,例如很多张图片组成一段连续的视频,每一帧则是每一张图片;
  • 编解码器:指对一个数据流进行变换的程序;
  • 复用:把不同的流根据某种容器(mp4、flv)的规则集合在一起成为一个文件称为 复用
  • 解复用:解复用则是与复用相反,把一个文件中不同的流解析出来称之为 解复用

二、下载及环境配置

在使用 FFmpeg 前我们需要下载 FFmpeg 工具以及对其配置环境,方便接下来的使用及开发。

2.1 下载

首先进入官网 https://ffmpeg.org/download.html 后,找到 Windows 下(本教程使用 win 作为基础开发环境),随后点击 win 图标:


之后再点击 Windows build ****:

随后找到对应的文件:

随后下载完毕后解压,解压之后的文件夹打开发现有一个bin目录,进入bin 目录后发现有如下 exe 工具:

2.2 环境配置

下载 FFmpeg 工具之后,我们需要配置对应的环境变量,使其具备在 系统 中可直接进行调用。首先我们需要把当前 bin 目录作为一个系统环境目录,打开编辑系统环境窗口:


在系统环境中找到 path:

随后复制对应的 bin 目录到 path 之中:

配置这个目录目的是将该目录放到 path 后,当使用一些“工具” 或其他东西时,系统将会在已配置的目录下循环对应的“工具” 并执行对应的操作,例如我配置完毕后,打开 cmd 输入 FFmpeg -version 查看对应的 FFmpeg 版本,此时结果如下:


若没有配置,将会找不到命令。

三、FFmpeg play 初尝试

3.1 简单使用 FFmpeg 的 play 播放器

在使用 FFmpeg 的其他功能前,我们先从 FFmpeg 的 play 播放器入手,了解 FFmpeg 的使用方式,为之后的使用奠定基础。FFmpeg有一个 play 播放器,通过这个播放器我们可以播放对应的视频。

使用这个播放器我们需要使用命令行形式调用,在 dos 窗口中切换到对应目录下(当然你可以直接指定文件),在此切换到到视频文件目录是为了方便接下来的操作:


接着,我们可以通过 dir 查看当前目录下的文件内容:

当前目录下有一个 jsgd 的 mp4 文件,在此我们通过 ffplay 命令可通过 FFmpeg 的播放器播放当前的视频文件:

enter 键确认后,将会弹出播放窗口:


此时在 dos 窗口中我们可以观察到对应的播放信息:


播放时,可以按 esc 键对应的退出播放。

3.2 FFmpeg play 播放器的一些指令操作

接着我们了解一下这个 play 播放器如何进行操作,我们可以使用 ffplay -help 对这个 ffplay 播放器的所有指令进行查看:

不过此时输出的内容过多,并不方便查看,我们可以通过命令 ffplay -help > ffplayHelp.txt 将输出的信息存储到对应的文本文件下:

该命令会将对应的输出信息保存到指定的文件之中:


在此打开,我们可以看到很多的帮助信息,在此我们先拉到最下面(这部分是播放时可通过某些按键发出指令进行操作的部分):


此处的帮助信息是对应操作 ffplay 播放器的一些手动指令,这些按键指令对应如下的表功能(在此我做了翻译):

按键指令功能
q, ESC退出
f切换到全屏
m开关静音
q, ESC退出
9、0分别减少和增加音量
/, *分别减少和增加音量
a循环当前节目中的音频通道
v循环视频通道
t循环播放当前节目中的字幕通道
c循环项目
w循环播放视频过滤器或显示模式
left/right前进或后退10秒
down/up前进或后退1分钟
page down/page up前进或后退10分钟
right mouse click右键在屏幕上拖动可以对应的拖动播放进度条
left double-click左键双击全屏
s逐帧播放

此时我们可以尝试以上所述命令对 ffplay 的作用。

3.3 FFmpeg play 播放设置

音量设置

在使用 ffplay 时还可以通过对应的命令提前设置播放参数。例如播放时,可能音量过大对用户并不友好,此时我们可以在播放前就设置对应的播放音量,此时需要使用 volume 参数,在我们导出的 help 文本中,可以查找后看到对应的参数:

此时 volume 再 help 帮助中,所描述的是 “ 设置初始音量(从-900到0)(默认为0)”,那么此时我们设置一个 0 试试是否静音:

此时再次输入命令后,enter 执行 视频并没有任何声音,测试成功。(由于音频无法用文本形式感知音量大小,在此也不再截图)

指定播放窗口大小

在使用 FFmpeg 时,若播放设备分辨率有局限,那么可以设置对应的 x、y 指定播放大小,例如命令:ffplay -x 400 -y 400 jsgd.mp4 。该命令设置视频大小为 400*400,此时输入命令后,播放窗口如下:

其他设置参数

除了指定大小之外,还有以下命令(不限于)可以指定对应播放形式:

命令功能
fs全屏启动
an禁用音频
vn禁用视频只有音频
sn禁用字幕
ss pos指定位置开始播放,其中 pos 是定位的秒数位置
t duration设置视频、音频的播放长度
video_size size帧尺寸设置
nodisp关闭图形化显示窗口(播放但不显示视频)
noborder播放无边框
loop number设置播放循环次数
showmode mode设置显示模式(0显示视频 1显示音频波形 2显示音频频谱)
window_title title设置窗口标题
vf filtergraph设置视频滤镜
af filtergraph设置视频滤镜
autoexit播放完毕自动退出

例如 静音命令的使用命令为 :ffplay -x 400 -y 400 -an jsgd.mp4 。此时你使用命令播放视频后,视频将会静音播放。

若你禁用视频,则会只播放音频,命令为:ffplay -x 400 -y 400 -vn jsgd.mp4 ,播放效果如下:

如果你想从某个位置(秒数)开始播放视频,那么此时直接使用 ss 命令定位到对应的秒数即可,命令为: ffplay -x 400 -y 400 -ss 60 jsgd.mp4,播放效果如下:


不过你可能对于长视频的秒数并不感冒,那么此时还可以对应的指定多少分多少秒(格式为:00:05:15)进行播放,例如命令 ffplay -x 400 -y 400 -ss 00:05:15 jsgd.mp4 ,播放效果如下:


若你只想播放一个视频固定时间,例如你指向播放10秒,那么此时可以使用 -t 命令,命令如:ffplay -x 400 -y 400 -ss 00:05:15 -t 10 jsgd.mp4,运行命令后,播放 10 秒后将会结束;

若你想指定多少分钟,但并不好计算时间,也可以使用时间格式进行指定的播放时间,例如:ffplay -x 400 -y 400 -ss 00:05:15 -t 00:00:05 jsgd.mp4

总结

本章节主要讲解了 FFmpeg 工具的安装和使用。由于本章节是第一章,主要通过 ffplay 学习 FFmpeg 工具的使用方法,并且学习了 ffplay 对视频文件的播放设置,通过本章节的学习为之后 FFmpeg 的使用奠定基础。

以上是关于FFmpeg音视频的基础名词解释的主要内容,如果未能解决你的问题,请参考以下文章

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

ffmpeg实战-音视频基础概念

我的第一本书《FFmpeg音视频开发基础与实战》已正式出版