音视频基础

Posted vector6_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了音视频基础相关的知识,希望对你有一定的参考价值。

音视频基础

音视频录制原理

由麦克风、摄像头采集的帧由编码器进行编码压缩,按一定格式写入某种封装格式。

时钟:为了控制音视频同步,需要统一个的时间源。

音视频播放原理

视频主要概念

视频码率:kb/s,是指视频文件在单位时间内使用的数据流量,也叫码流率。码率越大,说明单位时间内取样率越大,数据流精度就越高。

视频帧率:fps,通常说一个视频的25帧,指的就是这个视频帧率,即1秒中会显示25帧。帧率越高,给人的视觉就越流畅。

视频分辨率:分辨率就是我们常说的640x480分辨率、1920x1080分辨率,分辨率影响视频图像的大小。

I 帧(Intra coded frames):可以独立解码,I帧不需要参考其他画面而生成,解码时仅靠自己就重构完整图像;

  • I帧图像采用帧内编码方式;
  • I帧所占数据的信息量比较大;
  • I帧图像是周期性出现在图像序列中的,出现频率可由编码器选择;
  • I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
  • I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
  • I帧不需要考虑运动矢量;

P 帧(Predicted frames):根据本帧与相邻的前一帧(I帧或P帧)的不同点来压缩本帧数据,同时利用了空间和时间上的相关性。

  • P帧属于前向预测的帧间编码。它需要参考前面最靠近它的I帧或P帧来解码。

B 帧(Bi-directional predicted frames):B 帧图像采用双向时间预测,可以大大提高压缩倍数。

音频主要概念:

帧:每次编码的采样单元数,比如MP3通常是1152个采样点作为一个编码单元,AAC通常是1024个采样点作为一个编码单元。

帧长:

  • 可以指每帧播放持续的时间:每帧持续时间(秒) = 每帧采样点数 / 采样频率(HZ)
    比如:MP3 48k, 1152个采样点,每帧则为 24毫秒
    1152/48000= 0.024 秒 = 24毫秒;

  • 也可以指压缩后每帧的数据长度。

    所以讲到帧的时候要注意他适用的场合。

交错模式:数字音频信号存储的方式。数据以连续帧的方式存放,即首先记录帧1的左声道样本和右声道样本,再开始帧2的记录

非交错模式:首先记录的是一个周期内所有帧的左声道样本,再记录所有右声道样本

封装格式

封装格式(也叫容器)就是将已经编码压缩好的视频流、音频流及字幕按照一定的方案放到一个文件中,便于播放软件播放。
一般来说,视频文件的后缀名就是它的封装格式。

常见的封装格式:

AVI、MKV、MPE、MPG、MPEG
MP4、WMV、MOV、3GP
M2V、M1V、M4V、OGM
RM、RMS、RMM、RMVB、IFO
SWF、FLV、F4V、
ASF、PMF、XMB、DIVX、PART
DAT、VOB、M2TS、TS、PS

H264+AAC封装为FLV或MP4是最为流行的模式

音视频同步概念

DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。

音视频同步方式:

Audio Master:同步视频到音频
Video Master:同步音频到视频
External Clock Master:同步音频和视频到外部时钟。

一般情况下 Audio Master > External Clock Master > Video Master

以上是关于音视频基础的主要内容,如果未能解决你的问题,请参考以下文章

Au如何消去视频音频中的人声,提取伴奏

Android音视频系列(七):PCM音频单声道与双声道的相互转换

为啥百度云下载的视频没有声音?

音频编解码基础知识

音频编解码基础知识

音频编解码基础知识