德国·泰格尔瓦尔德
(本文基本逻辑:FLV 封装格式概览 → Audio Tags 解析 → Video Tags 解析 → Data Tags 解析)
FLV(Flash Video)是 Adobe 公司推出的一种流媒体格式,它的特点是封装后的音视频文件较小、封装规范简单,因此适合在互联网上进行传输和使用。在浏览器普遍支持 Flash 插件的时代,FLV 格式的视频非常流行。但是随着主流的浏览器平台逐步放弃了对 Flash 插件的支持后,以及移动互联网的兴起,App 取代浏览器成为更多内容的载体,在短视频领域 FLV 的地位逐步被 MP4 取代。但是,在直播领域,由于 RTMP 推流、HTTP-FLV 播放的整套方案低延时的特性,以及服务端普遍提供 HTTP Web 服务,能更广泛的兼容 HTTP-FLV,使得 FLV 仍然是大多数直播产品的首选流媒体格式。
1、FLV 格式概览
FLV 文件由一个 FLV Header 和一个 FLV Body 组成,在 FLV Body 中则由多组 (PreviousTagSize Tag)
组成。
FLV 中 Tag 的类型有三种:
- Audio Tags
- Video Tags
- Data Tags
Tag 中包含着 audio、video、scripts 的元信息,加密信息(可选)以及对应的实际数据。
总体来讲,FLV 的结构大致如下表所示:
2、Audio Tags 解析
Audio Tag 的结构大致如下所示:
通常在 AudioTagHeader 后面跟着就是 AUDIODATA 数据了,但是对于 AAC 格式的音频数据来说,AudioTagHeader 会多一个字段 AACPacketType 来表示 AACAUDIODATA 的类型:如果 AACPacketType 为 0,那么数据对应的是 AudioSpecificConfig;如果 AACPacketType 为 1,那么数据对应的为 Raw AAC frame data。
为什么 AudioTagHeader 中已经有了音频的相关参数,还需要在这里来一个 AudioSpecificConfig 呢?这是因为当 SoundFormat 是 AAC 时,SoundType 需要设置为 1(立体声),SoundRate 需要设置为 4(44k Hz),但这并不说明文件中 AAC 编码的音频必须是 44k Hz 的立体声。播放器在处理 AAC 音频时,需要忽略 AudioTagHeader 中的音频参数,而使用 AudioSpecificConfig 的参数来初始化解码器。
在 FLV 的文件中,一般情况下 AudioSpecificConfig 只会出现一次,即第一个 Audio Tag。如果音频使用 AAC,那么这个 Tag 就是 AAC sequence header,即 AAC 音频同步包。AudioSpecificConfig 的结构在 ISO/IEC-14496-3 Audio
标准中有做说明。
下面是 ISO/IEC 14496-3, 1.6.2.1 AudioSpecificConfig
:
AudioSpecificConfig() {
audioObjectType = GetAudioObjectType();
samplingFrequencyIndex; // 4 bslbf
if (samplingFrequencyIndex == 0xf) {
samplingFrequency; // 24 uimsbf
}
channelConfiguration; // 4 bslbf
sbrPresentFlag = -1;
psPresentFlag = -1;
if (audioObjectType == 5 || audioObjectType == 29) {
// ...
}
else {
extensionAudioObjectType = 0;
}
switch (audioObjectType) {
case 1: case 2: case 3: case 4: //...
GASpecificConfig();
break:
case ...:
//...
}
if (extensionAudioObjectType != 5 && bits_to_decode() >= 16) {
//...
}
// ...
GetAudioObjectType() {
audioObjectType; // 5 uimsbf
if (audioObjectType == 31) {
audioObjectType = 32 audioObjectTypeExt; // 6 uimsbf
}
return audioObjectType;
}
下面是 ISO/IEC 14496-3, 1.5.1.1 Audio object type definition
:
ID | Type |
---|---|
0 | Null |
1 | AAC main |
2 | AAC LC |
3 | AAC SSR |
4 | AAC LTP |
5 | SSR |
… | … |
下面是 ISO/IEC 14496-3, 1.6.3.4 samplingFrequencyIndex
:
index | value |
---|---|
0x0 | 96000 |
0x1 | 88200 |
0x2 | 64000 |
0x3 | 48000 |
0x4 | 44100 |
0x5 | 32000 |
0x6 | 24000 |
0x7 | 22050 |
0x8 | 16000 |
0x9 | 12000 |
0xa | 11025 |
0xb | 8000 |
0xc | 7350 |
0xd | reserved |
0xe | reserved |
0xf | escape value |
我们常用的 AAC 音频同步包的大小固定为 4 字节,前两个字节被称为 AACDecoderSpecificInfo
,用于描述这个音频包应当如何被解析,后两个字节称为 AudioSpecificConfig
,更加详细的指定了音频格式。下图是一个 AAC 音频同步包的示例:
在完成 AAC 音频同步包的发送后,我们就可以向服务器推送普通的 AAC 数据包了。在发送数据包时,AACDecoderSpecificInfo
则变为 0xAF01
,向服务器说明这个包是普通 AAC 数据包。如果这里的 AAC 数据有包含 7 个字节 ADTS 头(若存在 CRC 校验,则是 9 个字节),那么要去掉这个头后,把裸数据放到这里。如果这里是采集到的裸数据,没有 ADTS 头,那么这里就不需要这样处理了。下图是一个 AAC 音频数据包的示例:
对应的,在解析 FLV 时,如果封装的是 AAC 的音频,要在每帧 AAC ES 流前把 7 个字节 ADTS 头添加回来,这是因为 ADTS 是解码器通用的格式,纯的 AAC ES 流要打包成 ADTS 格式的 AAC 文件,解码器才能正常解码。在打包 ADTS 的时候,需要用到 samplingFrequencyIndex 这个信息,samplingFrequencyIndex 最准确的信息是存储在 AudioSpecificConfig 中。
有关 AudioSpecificConfig 结构解析的代码,可以参考 ffmpeg/libavcodec/mpeg4audio.c
中的 avpriv_mpeg4audio_get_config
函数。
int avpriv_mpeg4audio_get_config(MPEG4AudioConfig *c, const uint8_t *buf, int bit_size, int sync_extension)
{
GetBitContext gb;
int ret;
if (bit_size <= 0)
return AVERROR_INVALIDDATA;
ret = init_get_bits(&gb, buf, bit_size);
if (ret < 0)
return ret;
return ff_mpeg4audio_get_config_gb(c, &gb, sync_extension);
}
int ff_mpeg4audio_get_config_gb(MPEG4AudioConfig *c, GetBitContext *gb, int sync_extension)
{
int specific_config_bitindex, ret;
int start_bit_index = get_bits_count(gb);
c->object_type = get_object_type(gb);
c->sample_rate = get_sample_rate(gb, &c->sampling_index);
c->chan_config = get_bits(gb, 4);
if (c->chan_config < FF_ARRAY_ELEMS(ff_mpeg4audio_channels))
c->channels = ff_mpeg4audio_channels[c->chan_config];
c->sbr = -1;
c->ps = -1;
if (c->object_type == AOT_SBR || (c->object_type == AOT_PS &&
// check for W6132 Annex YYYY draft MP3onMP4
!(show_bits(gb, 3) & 0x03 && !(show_bits(gb, 9) & 0x3F)))) {
if (c->object_type == AOT_PS)
c->ps = 1;
c->ext_object_type = AOT_SBR;
c->sbr = 1;
c->ext_sample_rate = get_sample_rate(gb, &c->ext_sampling_index);
c->object_type = get_object_type(gb);
if (c->object_type == AOT_ER_BSAC)
c->ext_chan_config = get_bits(gb, 4);
} else {
c->ext_object_type = AOT_NULL;
c->ext_sample_rate = 0;
}
specific_config_bitindex = get_bits_count(gb);
if (c->object_type == AOT_ALS) {
skip_bits(gb, 5);
if (show_bits_long(gb, 24) != MKBETAG('