MP4解析

Posted 魏长志

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MP4解析相关的知识,希望对你有一定的参考价值。

mp4文件格式解析

    目前MP4的概念被炒得很火,也很乱。最开始MP4指的是音频(MP3的升级版),即MPEG-2 AAC标准。随后MP4概念被转移到视频上,对应的是MPEG-4标准。而现在我们流行的叫法,多半是指能播放MPEG-4标准编码格式视频的播放器。但是这篇文章介绍的内容跟上面这些都无关,我们要讨论的是MP4文件封装格式,对应的标准为ISO/IEC 14496-12,即信息技术 视听对象编码的第12部分:ISO 基本媒体文件格式(Information technology Coding of audio-visual objects Part 12: ISO base media file format)。ISO/IEC组织指定的标准一般用数字表示,ISO/IEC 14496MPEG-4标准。

    MP4视频文件封装格式是基于QuickTime容器格式定义的,因此参考QuickTime的格式定义对理解MP4文件格式很有帮助。MP4文件格式是一个十分开放的容器,几乎可以用来描述所有的媒体结构,MP4文件中的媒体描述与媒体数据是分开的,并且媒体数据的组织也很自由,不一定要按照时间顺序排列,甚至媒体数据可以直接引用其他文件。同时,MP4也支持流媒体。MP4目前被广泛用于封装h.264视频和AAC音频,是高清视频的代表。

 

    现在我们就来看看MP4文件格式到底是什么样的。

1、概述

    MP4文件中的所有数据都装在boxQuickTime中为atom)中,也就是说MP4文件由若干个box组成,每个box有类型和长度,可以将box理解为一个数据对象块。box中可以包含另一个box,这种box称为container box。一个MP4文件首先会有且只有一个“ftyp”类型的box,作为MP4格式的标志并包含关于文件的一些信息;之后会有且只有一个“moov”类型的boxMovie Box),它是一种container box,子box包含了媒体的metadata信息;MP4文件的媒体数据包含在“mdat”类型的boxMidia Data Box)中,该类型的box也是container box,可以有多个,也可以没有(当媒体数据全部引用其他文件时),媒体数据的结构由metadata进行描述。

    下面是一些概念:

    track  表示一些sample的集合,对于媒体数据来说,track表示一个视频或音频序列。

    hint track  这个特殊的track并不包含媒体数据,而是包含了一些将其他数据track打包成流媒体的指示信息。

    sample  对于非hint track来说,video sample即为一帧视频,或一组连续视频帧,audio sample即为一段连续的压缩音频,它们统称sample。对于hint tracksample定义一个或多个流媒体包的格式。

    sample table  指明sampe时序和物理布局的表。

    chunk 一个track的几个sample组成的单元。

    在本文中,我们不讨论涉及hint的内容,只关注包含媒体数据的本地MP4文件。下图为一个典型的MP4文件的结构树。

 

 

2Box

       首先需要说明的是,box中的字节序为网络字节序,也就是大端字节序(Big-Endian),简单的说,就是一个32位的4字节整数存储方式为高位字节在内存的低端。Boxheaderbody组成,其中header统一指明box的大小和类型,body根据类型有不同的意义和格式。

       标准的box开头的4个字节(32位)为box size,该大小包括box headerbox body整个box的大小,这样我们就可以在文件中定位各个box。如果size1,则表示这个box的大小为large size,真正的size值要在largesize域上得到。(实际上只有“mdat”类型的box才有可能用到large size。)如果size0,表示该box为文件的最后一个box,文件结尾即为该box结尾。(同样只存在于“mdat”类型的box中。)

       size后面紧跟的32位为box type,一般是4个字符,如“ftyp”“moov”等,这些box type都是已经预定义好的,分别表示固定的意义。如果是“uuid”,表示该box为用户扩展类型。如果box type是未定义的,应该将其忽略。

3File Type Boxftyp

    box有且只有1个,并且只能被包含在文件层,而不能被其他box包含。该box应该被放在文件的最开始,指示该MP4文件应用的相关信息。

    “ftyp” body依次包括132位的major brand4个字符),132位的minor version(整数)和1个以32位(4个字符)为单位元素的数组compatible brands。这些都是用来指示文件应用级别的信息。该box的字节实例如下:

4Movie Boxmoov
 

    box包含了文件媒体的metadata信息,“moov”是一个container box,具体内容信息由子box诠释。同File Type Box一样,该box有且只有一个,且只被包含在文件层。一般情况下,“moov”会紧随“ftyp”出现。

    一般情况下(限于篇幅,本文只讲解常见的MP4文件结构),“moov”中会包含1“mvhd”和若干个“trak”。其中“mvhd”header box,一般作为“moov”的第一个子box出现(对于其他container box来说,header box都应作为首个子box出现)。“trak”包含了一个track的相关信息,是一个container box。下图为部分“moov”的字节实例,其中红色部分为box header,绿色为“mvhd”,黄色为一部分“trak”

4.1 Movie Header Boxmvhd

    “mvhd”结构如下表。

 

字段

字节数

意义

box size

4

box大小

box type

4

box类型

version

1

box版本,01,一般为0。(以下字节数均按version=0

flags

3

 

creation time

4

创建时间(相对于UTC时间1904-01-01零点的秒数)

modification time

4

修改时间

time scale

4

文件媒体在1秒时间内的刻度值,可以理解为1秒长度的时间单元数

duration

4

track的时间长度,用durationtime scale值可以计算track时长,比如audio tracktime scale = 8000, duration = 560128,时长为70.016video tracktime scale = 600, duration = 42000,时长为70

rate

4

推荐播放速率,高16位和低16位分别为小数点整数部分和小数部分,即[16.16] 格式,该值为1.00x00010000)表示正常前向播放

volume

2

rate类似,[8.8] 格式,1.00x0100)表示最大音量

reserved

10

保留位

matrix

36

视频变换矩阵

pre-defined

24

 

next track id

4

下一个track使用的id

 

   

    “mvhd”的字节实例如下图,各字段已经用颜色区分开:

4.2 Track Boxtrak

    “trak”也是一个container box,其子box包含了该track的媒体数据引用和描述(hint track除外)。一个MP4文件中的媒体可以包含多个track,且至少有一个track,这些track之间彼此独立,有自己的时间和空间信息。“trak”必须包含一个“tkhd”和一个“mdia”,此外还有很多可选的box(略)。其中“tkhd”track header box“mdia”media box,该box是一个包含一些track媒体数据信息boxcontainer box

    “trak”的部分字节实例如下图,其中黄色为“trak”box的头,绿色为“tkhd”,蓝色为“edts”(一个可选box),红色为一部分“mdia”

 

4.2.1 Track Header Boxtkhd

    “tkhd”结构如下表。 

字段

字节数

意义

box size

4

box大小

box type

4

box类型

version

1

box版本,01,一般为0。(以下字节数均按version=0

flags

3

按位或操作结果值,预定义如下:

0x000001 track_enabled,否则该track不被播放;

0x000002 track_in_movie,表示该track在播放中被引用;

0x000004 track_in_preview,表示该track在预览时被引用。

一般该值为7,如果一个媒体所有track均未设置track_in_movietrack_in_preview,将被理解为所有track均设置了这两项;对于hint track,该值为0

creation time

4

创建时间(相对于UTC时间1904-01-01零点的秒数)

modification time

4

修改时间

track id

4

id号,不能重复且不能为0

reserved

4

保留位

duration

4

track的时间长度

reserved

8

保留位

layer

2

视频层,默认为0,值小的在上层

alternate group

2

track分组信息,默认为0表示该track未与其他track有群组关系

volume

2

[8.8] 格式,如果为音频track1.00x0100)表示最大音量;否则为0

reserved

2

保留位

matrix

36

视频变换矩阵

width

4

height

4

高,均为 [16.16] 格式值,与sample描述中的实际画面大小比值,用于播放时的展示宽高

 

 

    “tkhd”的字节实例如下图,各字段已经用颜色区分开:


4.2.2 Media Boxmdia

    “mdia”也是个container box,其子box的结构和种类还是比较复杂的。先来看一个“mdia”的实例结构树图。


       总体来说,“mdia”定义了track媒体类型以及sample数据,描述sample信息。一般“mdia”包含一个“mdhd”,一个“hdlr”和一个“minf”,其中“mdhd”media header box“hdlr”handler reference box“minf”media information box。下面依次看一下这几个box的结构。

4.2.2.1 Media Header Boxmdhd

    “mdhd”结构如下表。 

字段

字节数

意义

box size

4

box大小

box type

4

box类型

version

1

box版本,01,一般为0。(以下字节数均按version=0

flags

3

 

creation time

4

创建时间(相对于UTC时间1904-01-01零点的秒数)

modification time

4

修改时间

time scale

4

同前表

duration

4

track的时间长度

language

2

媒体语言码。最高位为0,后面15位为3个字符(见ISO 639-2/T标准中定义)

pre-defined

2

 

  

    “mdhd”的字节实例如下图,各字段已经用颜色区分开:

4.2.2.2 Handler Reference Boxhdlr

    “hdlr”解释了媒体的播放过程信息,该box也可以被包含在meta boxmeta)中。“hdlr”结构如下表。

 

字段

字节数

意义

box size

4

box大小

box type

4

box类型

version

1

box版本,01,一般为0。(以下字节数均按version=0

flags

3

 

pre-defined

4

 

handler type

4

media box中,该值为4个字符:

“vide”— video track

“soun”— audio track

“hint”— hint track

reserved

12

 

以上是关于MP4解析的主要内容,如果未能解决你的问题,请参考以下文章

如何使基于Media Foundation的播放打开并快速查找moov结尾的MP4 HTTP文件?

16K 16BIT双声道文件格式解析

iPhone下mp4视频无法播放和部分手机只有声音没有画面

mp4 解析工具

MP4解析

MP4解析

(c)2006-2024 SYSTEM All Rights Reserved IT常识