FFmpeg音视频的基础名词解释

Posted 2023-04-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了FFmpeg音视频的基础名词解释相关的知识，希望对你有一定的参考价值。

参考技术A

是指视频文件在单位时间内使用的数据流量，也叫码率或码流率，通俗一点的理解就是取样率,是视频编码中画面质量控制中最重要的部分，一般我们用的单位是kb/s或者Mb/s。一般来说同样分辨率下，视频文件的码流越大，压缩比就越小，画面质量就越高。码流越大，说明单位时间内取样率越大，数据流，精度就越高，处理出来的文件就越接近原始文件，图像质量越好，画质越清晰，要求播放设备的解码能力也越高。
当然，码流越大，文件体积也越大，其计算公式是文件体积=时间X码率/8。例如，网络上常见的一部90分钟1Mbps码流的720P RMVB文件，其体积就=5400秒×1Mb/8=675MB。通常来说，一个视频文件包括了画面及声音，例如一个RMVB的视频文件，里面包含了视频信息和音频信息，音频及视频都有各自不同的采样方式和比特率，也就是说，同一个视频文件音频和视频的比特率并不是一样的。而我们所说的一个视频文件码流率大小，一般是指视频文件中音频及视频信息码流率的总和。以以国内最流行，大家最熟悉的RMVB视频文件为例，RMVB中的VB，指的是VBR，即Variable Bit Rate的缩写，中文含义是可变比特率，它表示RMVB采用的是动态编码的方式，把较高的采样率用于复杂的动态画面(歌舞、飞车、战争、动作等)，而把较低的采样率用于静态画面，合理利用资源，达到画质与体积可兼得的效果。
我的理解码流就是视频/音频文件的每秒的大小，码率越高文件越大，呈现出来的失帧也就越低

采样率（也称为采样速度或者采样频率）定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹（Hz）来表示。采样率是指将模拟信号转换成数字信号时的采样频率，也就是单位时间内采样多少点。一个采样点数据有多少个比特。比特率是指每秒传送的比特(bit)数。单位为 bps(Bit Per Second)，比特率越高，传送的数据越大，音质越好.比特率 =采样率 x 采用位数 x声道数.
采样率类似于动态影像的帧数，比如电影的采样率是24赫兹，PAL制式的采样率是25赫兹，NTSC制式的采样率是30赫兹。当我们把采样到的一个个静止画面再以采样率同样的速度回放时，看到的就是连续的画面。同样的道理，把以44.1kHZ采样率记录的CD以同样的速率播放时，就能听到连续的声音。显然，这个采样率越高，听到的声音和看到的图像就越连贯。当然，人的听觉和视觉器官能分辨的采样率是有限的，基本上高于44.1kHZ采样的声音，绝大部分人已经觉察不到其中的分别了。而声音的位数就相当于画面的颜色数，表示每个取样的数据量，当然数据量越大，回放的声音越准确，不至于把开水壶的叫声和火车的鸣笛混淆。同样的道理，对于画面来说就是更清晰和准确，不至于把血和西红柿酱混淆。不过受人的器官的机能限制，16位的声音和24位的画面基本已经是普通人类的极限了，更高位数就只能靠仪器才能分辨出来了。比如电话就是3kHZ取样的7位声音，而CD是44.1kHZ取样的16位声音，所以CD就比电话更清楚。
我的理解采样率就是每秒采集音视频的点，比如我们通常说的8k 16k与44100

比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second)，比特率越高，传送的数据越大。在视频领域,比特率常翻译为码率比特率是指每秒传送的比特(bit)数。单位为bps(Bit Per Second)，比特率越高，传送的数据越大。在视频领域,比特率常翻译为码率 !!!
比特率表示经过编码（压缩）后的音、视频数据每秒钟需要用多少个比特来表示，而比特就是二进制里面最小的单位，要么是0，要么是1。比特率与音、视频压缩的关系，简单的说就是比特率越高，音、视频的质量就越好，但编码后的文件就越大；如果比特率越少则情况刚好相反。比特率是指将数字声音、视频由模拟格式转化成数字格式的采样率，采样率越高，还原后的音质、画质就越好。
我的理解是比特率与采样率概念相同，不过采样率是压缩前的比特率是压缩后的

VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式；

ABR（Average Bitrate）平均比特率是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高。

帧速率也称为FPS(Frames PerSecond)的缩写——帧/秒。是指每秒钟刷新的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次。越高的帧速率可以得到更流畅、更逼真的动画。每秒钟帧数(FPS)越多，所显示的动作就会越流畅。
就是俗称的每秒多少帧，例如我们众所周知的动画24帧/每秒

就是帧大小每一帧就是一副图像。

在手机上呈现的画面，第一帧与第二帧的图像中肯定有很多相同的画面，比如在一个固定的场所，背景不动，只有人物移动的情况，这时只需要重新绘制人物的移动就可以，背景不用重新绘制。IPB帧就是用于处理这种情况。

I帧:帧内编码帧，I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）

P帧:前向预测编码帧。P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）

P帧的预测与重构:P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

B帧:双向预测内插编码帧。B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别（具体比较复杂，有4种情况，但我这样说简单些），换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累。

B帧的预测与重构

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。

1）B帧是由前面的I或P帧和后面的P帧来进行预测的;

2）B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量;

3）B帧是双向预测编码帧;

4）B帧压缩比最高,因为它只反映丙参考帧间运动主体的变化情况,预测比较准确;

5）B帧不是参考帧,不会造成解码错误的扩散。

我找了篇文章，可以更好的理解H264
H264基础简介

在视频编码序列中，GOP即Group of picture（图像组），指两个I帧之间的距离，Reference（参考周期）指两个P帧之间的距离（如下图3.1）。一个I帧所占用的字节数大于一个P帧，一个P帧所占用的字节数大于一个B帧（如下图3.1所示）。

所以在码率不变的前提下，GOP值越大，P、B帧的数量会越多，平均每个I、P、B帧所占用的字节数就越多，也就更容易获取较好的图像质量；Reference越大，B帧的数量越多，同理也更容易获得较好的图像质量。需要说明的是，通过提高GOP值来提高图像质量是有限度的，在遇到场景切换的情况时，H.264编码器会自动强制插入一个I帧，此时实际的GOP值被缩短了。另一方面，在一个GOP中，P、B帧是由I帧预测得到的，当I帧的图像质量比较差时，会影响到一个GOP中后续P、B帧的图像质量，直到下一个GOP开始才有可能得以恢复，所以GOP值也不宜设置过大。同时，由于P、B帧的复杂度大于I帧，所以过多的P、B帧会影响编码效率，使编码效率降低。另外，过长的GOP还会影响Seek操作的响应速度，由于P、B帧是由前面的I或P帧预测得到的，所以Seek操作需要直接定位，解码某一个P或B帧时，需要先解码得到本GOP内的I帧及之前的N个预测帧才可以，GOP值越长，需要解码的预测帧就越多，seek响应的时间也越长。

DTS（Decoding Time Stamp）：即解码时间戳，这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS（Presentation Time Stamp）：即显示时间戳，这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。
这2个概念经常出现在音频视频编码和播放中，其实际意义是，PTS是真正录制和播放的时间戳，而DTS是解码的时间戳。
对于普通的无B桢视频(H264 Baseline或者VP8)，PTS/DTS应该是相等的，因为没有延迟编码。
对于有B桢的视频，I桢的PTS依然等于DTS, P桢的PTS>DTS, B桢的PTS<DTS。
可以简单地这样理解：
若视频没有B帧，则I和P都是解码后即刻显示。
若视频含有B帧，则I是解码后即刻显示，P是先解码后显示，B是后解码先显示。（B 和P的先、后是相对的）。

上面说了视频帧、DTS、PTS 相关的概念。我们都知道在一个媒体流中，除了视频以外，通常还包括音频。音频的播放，也有 DTS、PTS 的概念，但是音频没有类似视频中 B 帧，不需要双向预测，所以音频帧的 DTS、PTS 顺序是一致的。
音频视频混合在一起播放，就呈现了我们常常看到的广义的视频。在音视频一起播放的时候，我们通常需要面临一个问题：怎么去同步它们，以免出现画不对声的情况。
要实现音视频同步，通常需要选择一个参考时钟，参考时钟上的时间是线性递增的，编码音视频流时依据参考时钟上的时间给每帧数据打上时间戳。在播放时，读取数据帧上的时间戳，同时参考当前参考时钟上的时间来安排播放。这里的说的时间戳就是我们前面说的 PTS。实践中，我们可以选择：同步视频到音频、同步音频到视频、同步音频和视频到外部时钟。

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

学习目标

了解 FFmpeg
学习 FFmpeg 工具的下载及环境配置
了解 FFmpeg 工具的使用方式
了解 FFmpeg play 的使用方法
了解 FFmpeg paly 的音量设置、窗口设置、音量设置等设置方法

一、了解 FFmpeg

FFmpeg 是一个音视频处理的工具，通过 FFmpeg 可以对视频进行旋转、缩小、添加水印、截图、添加马赛克、直播推流、转化音频等操作。

在使用 FFmpeg 前需要了解一些专业术语，例如容器、媒体流、数据帧（包）、编解码器、复用、解复用这些概念释义如下：

容器：容器是指一种特定格式的多媒体文件，例如 mp4、flv 文件等；
媒体流：媒体流一般是指时间轴上的连续的数据，这些数据是需要连续的，如一段音频数据、一段视频数据等；
数据帧：数据帧是指媒体流中的最小处理单元，例如很多张图片组成一段连续的视频，每一帧则是每一张图片；
编解码器：指对一个数据流进行变换的程序；
复用：把不同的流根据某种容器（mp4、flv）的规则集合在一起成为一个文件称为复用；
解复用：解复用则是与复用相反，把一个文件中不同的流解析出来称之为 解复用；

二、下载及环境配置

在使用 FFmpeg 前我们需要下载 FFmpeg 工具以及对其配置环境，方便接下来的使用及开发。

2.1 下载

首先进入官网 https://ffmpeg.org/download.html 后，找到 Windows 下（本教程使用 win 作为基础开发环境），随后点击 win 图标：

之后再点击 Windows build ****：

随后找到对应的文件：

随后下载完毕后解压，解压之后的文件夹打开发现有一个bin目录，进入bin 目录后发现有如下 exe 工具：

2.2 环境配置

下载 FFmpeg 工具之后，我们需要配置对应的环境变量，使其具备在系统中可直接进行调用。首先我们需要把当前 bin 目录作为一个系统环境目录，打开编辑系统环境窗口：

在系统环境中找到 path：

随后复制对应的 bin 目录到 path 之中：

配置这个目录目的是将该目录放到 path 后，当使用一些“工具” 或其他东西时，系统将会在已配置的目录下循环对应的“工具” 并执行对应的操作，例如我配置完毕后，打开 cmd 输入 FFmpeg -version 查看对应的 FFmpeg 版本，此时结果如下：

若没有配置，将会找不到命令。

三、FFmpeg play 初尝试

3.1 简单使用 FFmpeg 的 play 播放器

在使用 FFmpeg 的其他功能前，我们先从 FFmpeg 的 play 播放器入手，了解 FFmpeg 的使用方式，为之后的使用奠定基础。FFmpeg有一个 play 播放器，通过这个播放器我们可以播放对应的视频。

使用这个播放器我们需要使用命令行形式调用，在 dos 窗口中切换到对应目录下（当然你可以直接指定文件），在此切换到到视频文件目录是为了方便接下来的操作：

接着，我们可以通过 dir 查看当前目录下的文件内容：

当前目录下有一个 jsgd 的 mp4 文件，在此我们通过 ffplay 命令可通过 FFmpeg 的播放器播放当前的视频文件：

enter 键确认后，将会弹出播放窗口：

此时在 dos 窗口中我们可以观察到对应的播放信息：

播放时，可以按 esc 键对应的退出播放。

3.2 FFmpeg play 播放器的一些指令操作

接着我们了解一下这个 play 播放器如何进行操作，我们可以使用 ffplay -help 对这个 ffplay 播放器的所有指令进行查看：

不过此时输出的内容过多，并不方便查看，我们可以通过命令 ffplay -help > ffplayHelp.txt 将输出的信息存储到对应的文本文件下：

该命令会将对应的输出信息保存到指定的文件之中：

在此打开，我们可以看到很多的帮助信息，在此我们先拉到最下面（这部分是播放时可通过某些按键发出指令进行操作的部分）：

此处的帮助信息是对应操作 ffplay 播放器的一些手动指令，这些按键指令对应如下的表功能（在此我做了翻译）：

按键指令	功能
q, ESC	退出
f	切换到全屏
m	开关静音
q, ESC	退出
9、0	分别减少和增加音量
/， *	分别减少和增加音量
a	循环当前节目中的音频通道
v	循环视频通道
t	循环播放当前节目中的字幕通道
c	循环项目
w	循环播放视频过滤器或显示模式
left/right	前进或后退10秒
down/up	前进或后退1分钟
page down/page up	前进或后退10分钟
right mouse click	右键在屏幕上拖动可以对应的拖动播放进度条
left double-click	左键双击全屏
s	逐帧播放

此时我们可以尝试以上所述命令对 ffplay 的作用。

3.3 FFmpeg play 播放设置

音量设置

在使用 ffplay 时还可以通过对应的命令提前设置播放参数。例如播放时，可能音量过大对用户并不友好，此时我们可以在播放前就设置对应的播放音量，此时需要使用 volume 参数，在我们导出的 help 文本中，可以查找后看到对应的参数：

此时 volume 再 help 帮助中，所描述的是 “ 设置初始音量(从-900到0)(默认为0)”，那么此时我们设置一个 0 试试是否静音：

此时再次输入命令后，enter 执行视频并没有任何声音，测试成功。（由于音频无法用文本形式感知音量大小，在此也不再截图）

指定播放窗口大小

在使用 FFmpeg 时，若播放设备分辨率有局限，那么可以设置对应的 x、y 指定播放大小，例如命令：ffplay -x 400 -y 400 jsgd.mp4 。该命令设置视频大小为 400*400，此时输入命令后，播放窗口如下：

其他设置参数

除了指定大小之外，还有以下命令（不限于）可以指定对应播放形式：

命令	功能
fs	全屏启动
an	禁用音频
vn	禁用视频只有音频
sn	禁用字幕
ss pos	指定位置开始播放，其中 pos 是定位的秒数位置
t duration	设置视频、音频的播放长度
video_size size	帧尺寸设置
nodisp	关闭图形化显示窗口（播放但不显示视频）
noborder	播放无边框
loop number	设置播放循环次数
showmode mode	设置显示模式（0显示视频 1显示音频波形 2显示音频频谱）
window_title title	设置窗口标题
vf filtergraph	设置视频滤镜
af filtergraph	设置视频滤镜
autoexit	播放完毕自动退出

例如静音命令的使用命令为：ffplay -x 400 -y 400 -an jsgd.mp4 。此时你使用命令播放视频后，视频将会静音播放。

若你禁用视频，则会只播放音频，命令为：ffplay -x 400 -y 400 -vn jsgd.mp4 ，播放效果如下：

如果你想从某个位置（秒数）开始播放视频，那么此时直接使用 ss 命令定位到对应的秒数即可，命令为： ffplay -x 400 -y 400 -ss 60 jsgd.mp4，播放效果如下：

不过你可能对于长视频的秒数并不感冒，那么此时还可以对应的指定多少分多少秒（格式为：00:05:15）进行播放，例如命令 ffplay -x 400 -y 400 -ss 00:05:15 jsgd.mp4 ，播放效果如下：

若你只想播放一个视频固定时间，例如你指向播放10秒，那么此时可以使用 -t 命令，命令如：ffplay -x 400 -y 400 -ss 00:05:15 -t 10 jsgd.mp4，运行命令后，播放 10 秒后将会结束；

若你想指定多少分钟，但并不好计算时间，也可以使用时间格式进行指定的播放时间，例如：ffplay -x 400 -y 400 -ss 00:05:15 -t 00:00:05 jsgd.mp4：

总结

本章节主要讲解了 FFmpeg 工具的安装和使用。由于本章节是第一章，主要通过 ffplay 学习 FFmpeg 工具的使用方法，并且学习了 ffplay 对视频文件的播放设置，通过本章节的学习为之后 FFmpeg 的使用奠定基础。

以上是关于FFmpeg音视频的基础名词解释的主要内容，如果未能解决你的问题，请参考以下文章

一FFmpeg 的初尝试《FFmpeg 音视频开发基础入门到实战》

ffmpeg实战-音视频基础概念

我的第一本书《FFmpeg音视频开发基础与实战》已正式出版