各种音视频编解码学习详解
转载自 : http://www.cnblogs.com/skyofbitbit/p/3651270.html
各种音视频编解码学习详解
编解码学习笔记(一):基本概念
媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范 标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从 wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫“天下维客”。wiki的中文还是很不错的,但是阅读后建议再阅读英文。
我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。
基本概念
编解码
编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将 信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。
容器
很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格 式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。
FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来 编码的。因此wav、avi大量存在等于“IDP3”的FourCC。
视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。
参数介绍
采样率
采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称“位速率”)相混淆。
采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是 100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。
对于语音采样:
- 8,000 Hz - 电话所用采样率, 对于人的说话已经足够
- 11,025 Hz
- 22,050 Hz - 无线电广播所用采样率
- 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率
- 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率
- 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率
- 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
- 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率
- 50,400 Hz - 三菱 X-80 数字录音机所用所用采样率
- 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音轨、Blu-ray Disc(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率
- 2.8224 MHz - SACD、 索尼 和 飞利浦 联合开发的称为 Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。
在模拟视频中,采样率定义为帧频和场频,而不是概念上的像素时钟。图像采样频率是传感器积分周期的循环速度。由于积分周期远远小于重复所需时间,采样频率可能与采样时间的倒数不同。
- 50 Hz - PAL 视频
- 60 / 1.001 Hz - NTSC 视频
当模拟视频转换为数字视频的时候,出现另外一种不同的采样过程,这次是使用像素频率。一些常见的像素采样率有:
- 13.5 MHz - CCIR 601、D1 video
分辨率
分辨率,泛指量测或显示系统对细节的分辨能力。此概念可以用时间、空间等领域的量测。日常用语中之分辨率多用于图像的清晰度。分辨率越高代表图像品质越好,越能表现出更多的细节。但相对的,因为纪录的信息越多,文件也就会越大。目前个人电脑里的图像,可以使用图像 处理软件,调整图像的大小、编修照片等。例如 photoshop,或是photoimpact等软件。
图像分辨率 :
用以描述图像细节分辨能力,同样适用于数字图像、胶卷图像、及其他类型图像。常用'线每毫米'、 '线每英吋'等来衡量。通常,“分辨率”被表示成每一个方向上的像素数量,比如640x480等。而在某些情况下,它也可以同时表示成“每英吋像素” (pixels per inch,ppi)以及图形的长度和宽度。比如72ppi,和8x6英吋。
视频分辨率 :
各种电视规格分辨率比较视 频的画面大小称为“分辨率”。数位视频以像素为度量单位,而类比视频以水平扫瞄线数量为度量单位。标清电视频号分辨率为 720/704/640x480i60(NTSC)或768/720x576i50(PAL/SECAM)。新的高清电视(HDTV)分辨率可达 1920x1080p60,即每条水平扫瞄线有1920个像素,每个画面有1080条扫瞄线,以每秒钟60张画面的速度播放。
画面更新率fps
Frame rate中文常译为“画面更新率”或“帧率”,是指视频格式每秒钟播放的静态画面数量。典型的画面更新率由早期的每秒6或8张(frame persecond,简称fps),至现今的每秒120张不等。PAL (欧洲,亚洲,澳洲等地的电视广播格式) 与 SECAM (法国,俄国,部分非洲等地的电视广播格式) 规定其更新率为25fps,而NTSC (美国,加拿大,日本等地的电视广播格式) 则规定其更新率为29.97 fps。电影胶卷则是以稍慢的24fps在拍摄,这使得各国电视广播在播映电影时需要一些复杂的转换手续(参考Telecine转换)。要达成最基本的视觉暂留效果大约需要10fps的速度。
压缩方法
有损压缩和无损压缩
在视频压缩中有损(Lossy )和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损 压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压 缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
- 无损格式,例如WAV,PCM,TTA,FLAC,AU,APE,TAK,WavPack(WV)
- 有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC
帧内压缩和帧间压缩
帧内(Intraframe)压缩也称为空间压缩 (Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或 动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
对称编码和不对称编码
对称性(symmetric)是压缩编码的一个关键特 征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间 要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
除wiki外的资料来源:http://tech.lmtw.com/csyy/Using/200411/3142.html
编解码学习笔记(二):codec类型
资料(港台将information翻译为资料)压缩是透过去除资料中的冗余资讯而达成。就视讯资料而言,资料中的冗余资讯可以分成四类:
时间上的冗余资讯(temporal redundancy)
在视讯资料中,相邻的帧(frame)与帧之间通常有很强的关连性,这样的关连性即为时间上的冗余资讯。这即是上一次学习中的帧间压缩。
空间上的冗余资讯(spatial redundancy)
在同一张帧之中,相邻的像素之 间通常有很强的关连性,这样的关连性即为空间上的冗余资讯。这即是上一次学习中的帧内压缩。
统计上的冗余资讯(statistical redundancy)
统计上的冗余资讯指的是欲编码的符号(symbol)的机率分布是不均匀(non-uniform)的。
感知上的冗余资讯(perceptual redundancy)
感知上的冗余资讯是指在人在观看视讯时,人眼无法察觉的资讯。
视讯编码标准发展 |
||||
年份 |
标准 |
制定组织 |
解除版权保护 |
主要应用 |
1984 |
H.120 |
ITU-T |
是 |
|
1990 |
H.261 |
ITU-T |
是 |
视讯会议、视讯通话 |
1993 |
MPEG-1 第二部份 |
ISO /IEC |
是 |
影音光碟(VCD ) |
1995 |
H.262/MPEG-2 第二部份 |
ISO / IEC 、ITU-T |
否 |
DVD影碟(DVD-Video )、蓝光(Blu-Ray )影碟、数位视讯广播(DVB )、SVCD |
1996 |
H.263 [6] |
ITU-T |
视讯会议、视讯通话、3G 手机视讯(3GP ) |
|
1999 |
MPEG-4 第二部份 |
ISO /IEC |
否 |
|
2003 |
H.264/MPEG-4 AVC [1] |
ISO / IEC 、ITU-T |
否 |
蓝光(Blu-Ray )影碟、数位视讯广播(DVB )、iPod 视讯、高画质DVD(HD DVD ) |
视频codec |
ISO /IEC |
MJPEG · Motion JPEG 2000 · MPEG-1 · MPEG-2 (Part 2 )· MPEG-4 (Part 2/ASP · Part 10/AVC )· HVC |
ITU-T |
H.120 · H.261 · H.262 · H.263 · H.264 · H.265 |
|
其它 |
AMV · AVS · Bink · CineForm · Cinepak · Dirac · DV · Indeo · Microsoft Video 1 · OMS Video · Pixlet · RealVideo · RTVideo · SheerVideo · Smacker · Sorenson Video & Sorenson Spark · Theora · VC-1 · VP3 · VP6 · VP7 · VP8 · WMV |
|
音频 codec |
ISO /IEC MPEG |
MPEG-1 Layer III (MP3) · MPEG-1 Layer II · MPEG-1 Layer I · AAC · HE-AAC · MPEG-4 ALS · MPEG-4 SLS · MPEG-4 DST |
ITU-T |
G.711 · G.718 · G.719 · G.722 · G.722.1 · G.722.2 · G.723 · G.723.1 · G.726 · G.728 · G.729 · G.729.1 |
|
其它 |
AC-3 · AMR · AMR-WB · AMR-WB+ · Apple Lossless · ATRAC · DRA · DTS · FLAC · GSM-HR · GSM-FR · GSM-EFR · iLBC · Monkey's Audio · TTA (True Audio)· MT9 · μ-law · Musepack · Nellymoser · OptimFROG · OSQ · RealAudio · RTAudio · SD2 · SHN · SILK · Siren · Speex · TwinVQ · Vorbis · WavPack · WMA |
|
图像压缩 |
ISO /IEC /ITU-T |
JPEG · JPEG 2000 · JPEG XR · lossless JPEG · JBIG · JBIG2 · PNG · WBMP |
Others |
APNG · BMP · DjVu · EXR · GIF · ICER · ILBM · MNG · PCX · PGF · TGA · TIFF |
|
媒体容器 |
通用 |
3GP · ASF · AVI · Bink · BXF · DMF · DPX · EVO · FLV · GXF · M2TS · Matroska · MPEG-PS · MPEG-TS · MP4 · MXF · Ogg · QuickTime · RealMedia · RIFF · Smacker · VOB |
只用于音频 |
AIFF · AU· WAV |
上面的表格,查看某个具体的codec,可以在中文的wiki中查找,但是英文的wiki咨询更为丰富,见下表
Multimedia compression formats |
|||||||||
Video compression |
|
||||||||
Audio compression |
|
||||||||
Image compression |
|
||||||||
Media containers |
|
编解码学习笔记(三):Mpeg系列——Mpeg 1和Mpeg 2
- MPEG-1: 第一个官方的视訊音訊压缩标准,随后在Video CD中被采用,其中的音訊压缩的第三级(MPEG-1 Layer 3)简称MP3, 成为比较流行的音訊压缩格式。
- MPEG-2: 广播质量的视訊、音訊和传输协议。被用于無線數位電視-ATSC、DVB以及ISDB、数字卫星电视(例如DirecTV)、 数字有线电视信号,以及DVD视频光盘技术中。
- MPEG-3: 原本目标是为高解析度电视(HDTV)设计,随后發現MPEG-2已足夠HDTV應用,故 MPEG-3的研發便中止。
- MPEG- 4:2003 年发布的视訊压缩标准,主要是扩展MPEG-1、MPEG-2等標準以支援視訊/音訊物件(video/audio "objects")的編碼、3D內容、低位元率編碼(low bitrate encoding)和數位版權管理(Digital Rights Management),其中第10部分由ISO/IEC和ITU-T联合发布,称为H.264/MPEG-4 Part 10。参见H.264。
- MPEG-7:MPEG-7并不是一个视訊压缩标准,它是一个多媒体内容的描述标准。
- MPEG-21:MPEG-21是一个正在制定中的标准,它的目标是为未来多媒体的应用提供一个完整的平台。
媒体codec在于MPEG-1,MPEG-2,MPEG-4,如上图所示。
DVB:数字视频广播(DVB, Digital VideoBroadcasting),是由“DVB Project”维护的一系列为国际所承认的数字电视公开标准。DVB系统传输方式有如下几种:
除音频与视频传输外,DVB也定义了带回传信道(DVB-RC)的数据通信标准(DVB-DATA)。
DVB的codec,视频为:MPEG-2,MPEG-4 AVC;音频为:MP3,AC-3,AAC,HE-AAC。
MPEG-1音频分三层,就是MPEG-1 Layer I, II, III,其中第三层协议也就是MPEG- 1 Layer 3,简称MP3。MP3目前已经成为广泛流传的音频压缩技术。
- 第一部分(Part 1):系统;
- 第二部分(Part 2):视频;
- 第三部分(Part 3):音频;定义level1,level2,level3,并在MPEG-2中定义了扩展。
- 第四部分(Part 4):一次性测试;
- 第五部分(Part 5):参考软件;
- 1个音频压缩系统限于两个通道(立体声)
- 没有为隔行扫描视频提供标准化支持,且压缩率差
- 只有一个标准化的“profile” (约束参数比特流), 不适应 更高分辨率的视频。MPEG - 1可以支持4k的视频,但难以提供更高分辨率的视频编码并且标识硬件的支持能力。
- 支持只有一个颜色空间,4:2:0。
MPEG-2作为ISO/IEC 13818正式发布,通常用来为广播信号提供视频和音频编码,包括卫星电视、有线电视等。MPEG-2经过少量修改后,也成为DVD产品的内核技术。
第一部(Part 1):系统-描述视频和音频的同步和多路技术
正式名称是 ISO/IEC 13818-1或 ITU-T中的H.222.0
MPEG-2的系统描述部分(第1部分)定义了传输流,它用来一套在非可靠介质上传输数字视频信号和音频信号的机制,主要用在广播电视领域。
正式名称是 ISO/IEC 13818-2或 ITU-T H.262。
MPEG-2支持隔行扫描和逐行扫描。在逐行扫描模式下,编码的基本单元是帧。在隔行扫描模式下,基本编码可以是帧,也可以是场(field)。
I帧编码是为了减少空间域冗余,P帧和B帧是为了减少时间域冗余。
第六部(Part 6):DSM-CC(Digital Storage Media Commandand Control)扩展
第七部(Part 7):Advanced Audio Coding (AAC)
知识产权管理(IPMP)。XML定义在ISO/IEC23001-3。MPEG-2内核技术大约涉及640个专利,这些专利主要集中在20间公司和一间大学。
MPEG- 2提供新的音频编码方式。在第3部分和第7部分介绍。
MPEG-2 NBC (Non-Backward Compatible),提供MPEG-2AAC,且不能向后兼容, 多通道编码达到 48个通道。
名称 |
英文 |
中文 |
图像编码类型 |
色度格式 YCbCr |
长宽比 |
伸缩模式 |
SP |
Simple Profile |
简单类 |
I帧、P帧 |
4:2:0 |
4:3或16:9 |
|
MP |
Main Profile |
主类 |
I帧、P帧、B帧 |
4:2:0 |
4:3 或16:9 |
|
SNR |
SNR Scalable profile |
信噪比分层类 |
I帧、P帧、B帧 |
4:2:0 |
4:3 或16:9 |
信噪比可伸缩 |
Spatial |
Spatially scalable profile |
空间可分层类 |
I帧、P帧、B帧 |
4:2:0 |
4:3 或16:9 |
信噪比或空间可伸缩 |
442P |
4:2:2 Profile |
I帧、P帧、B帧 |
4:2:2 |
|||
HP |
High profile |
高类 |
I帧、P帧、B帧 |
4:2:0或 4:2:2 |
4:3 或16:9 |
信噪比或空间可伸缩 |
名称 |
英文 |
帧频 |
最大长×最大宽 |
每秒最大亮度样本 (约为高×宽×帧频率) |
最大比特率 (Mbit/s) |
LL |
Low Level |
23.976, 24, 25, 29.97, 30 |
352×288 |
3,041,280 |
4 |
ML |
Main Level |
23.976, 24, 25, 29.97, 30 |
720×576 |
10,368,000,例外为:HP中4:2:0为14,475,600,4:2:2为11,059,200 |
15 |
H-14 |
High-1440 level |
23.976, 24, 25, 29.97, 30, 50, 59.94, 60 |
1440×1152 |
47,001,600,例外为:HP中4:2:0为62,668,800 |
60 |
HL |
High level |
23.976, 24, 25, 29.97, 30, 50, 59.94, 60 |
1920×1152 |
62,668,800,例外为:HP中4:2:0为83,558,400 |
80 |
Profile @ Level |
Resolution (px) |
Framerate max. (Hz) |
Sampling |
Bitrate (Mbit/s) |
Example Application |
SP@LL |
176 × 144 |
15 |
4:2:0 |
0.096 |
Wireless handsets |
SP@ML |
352 × 288 |
15 |
4:2:0 |
0.384 |
PDAs |
320 × 240 |
24 |
||||
MP@LL |
352 × 288 |
30 |
4:2:0 |
4 |
Set-top boxes (STB) |
MP@ML |
720 × 480 |
30 |
4:2:0 |
15 (DVD: 9.8) |
DVD, SD-DVB |
720 × 576 |
25 |
||||
MP@H-14 |
1440 × 1080 |
30 |
4:2:0 |
60 (HDV: 25) |
HDV |
1280 × 720 |
30 |
||||
MP@HL |
1920 × 1080 |
30 |
4:2:0 |
80 |
ATSC 1080i, 720p60, HD-DVB (HDTV). (Bitrate for terrestrial transmission is limited to 19.39Mbit/s) |
1280 × 720 |
60 |
||||
422P@LL |
4:2:2 |
||||
422P@ML |
720 × 480 |
30 |
4:2:2 |
50 |
Sony IMX using I-frame only, Broadcast "contribution" video (I&P only) |
720 × 576 |
25 |
||||
422P@H-14 |
1440 × 1080 |
30 |
4:2:2 |
80 |
Potential future MPEG-2-based HD products from Sony and Panasonic |
1280 × 720 |
60 |
||||
422P@HL |
1920 × 1080 |
30 |
4:2:2 |
300 |
Potential future MPEG-2-based HD products from Panasonic |
1280 × 720 |
60 |
YCbCr不是一种绝对色彩空间,是YUV压缩和偏移的版本。右图为UV色版。
编解码学习笔记(四):Mpeg系列——Mpeg 4
使用杜比数字技术下,最标准常用的是5.1声道设置,但杜比数字容许一系列不同声道的选择。全部可供选择的声道如下列所示:
- 单声道(中央)
- 双声道立体声(左、右),选择性地交叉应用杜比环回
- 三声道立体声(左、中、右)
- 双声道立体声加单环回(左、右、环回)
- 三声道立体声加单环回(左、中、右、环回)
- 四声道环回立体声(左前、右前、左后、右后)
- 五声道环回立体声(左前、中、右前、左后、右后)
在5.1, 7.1 或其他等文字中,'.1'指的是低频LFE声道。
MPEG-4提供范围从每秒几k比特到每秒数十兆比特的,它具有下面功能:
- 改善MPEG-2的编码效率
- MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比,在相同的比特率下,它基于更高的视觉听觉质量,这就 使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为 最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等。
- 提供混合媒体数据(视频,音频,语音)的编码能力
- 差错容忍使得内容稳定传输。
- 当在传输有误码或丢包现象时,MPEG4受到的影响很小,并且能迅速恢复。
- 提供受众视听场景的互动能力,MPEG-4终端用户提供不同的对象支持各种互动要求。
- MPEG-4提供了基于内容的多媒体数据访问工具,如索引、超级链接、上传、下载、删除等。利用这些工具,用户可以方便地 从多媒体数据库中有选择地获取自己所需的与对象有关的内容,并提供了内容的操作和位流编辑功能,可应用于交互式家庭购物,淡入淡出的数字化效果等。 MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。
- MPEG-4对传输数据网是透明的,它可以兼容各种网络。
- MPEG-4提供了易出错环境的鲁棒性,来保证其在许多无线和有线网络以及存储介质中的应用,此外,MPEG-4还支持基于内容的的可分级性,即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求,支持具有不同带宽,不同存储容量的传输信道和接收端。
- 这些特点无疑会加速多媒体应用的发展,从中受益的应用领域有:因特网多媒体应用;广播电视;交互式视频游戏;实时可视通 信;交互式存储媒体应用;演播室技术及电视后期制作;采用面部动画技术的虚拟会议;多媒体邮件;移动通信条件下的多媒体应用;远程视频监控;通过ATM网 络等进行的远程数据库业务等。
MPEG-4视频编码核心思想
在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代压缩编码技术,着 眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码,这种编码方案存在以下缺陷:
- 将图像固定地分成相同大小的块,在高压缩比的情况下会出现严重的块效应,即马赛克效应;
- 不能对图像内容进行访问、编辑和回放等操作;
- 未充分利用人类视觉系统(HVS,Human Visual System)的特性。
MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性,抓住了图像信息传输的本质,从轮廓、纹理思路出发,支持基于视觉内容的交互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势。
AV对象(AVO,AudioVisual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些 不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原 始AV对象具有高效编码、高效存储与传输以及可交互操作的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编 码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。
MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。
MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用。
MPEG-4各部分
MPEG-4由一系列的子标准组成,被称为部,包括以下的部分。对于媒体编解码,重点关注Part2,Part 3, Part 10。
第一部(ISO/IEC 14496-1):系统
描述视訊和音訊的同步以及混合方式(Multiplexing,简写为MUX)。定义了 MP4 容器格式, 支持类似 DVD 菜单这样的直观和互动特性等。
第二部(ISO/IEC 14496-2):视频
定义了一个对各种视觉信息(包括视訊、静止纹理、计算机合成图形等等)的编解码器。对视訊部分来说,众多”Profiles”中很常用的一种是Advanced SimpleProfile (ASP),例如XviD编码就 属于MPEG-4Part 2。包括 3ivx, DivX4/Project Mayo, DivX 5, Envivio,ffmpeg/ffds, mpegable, Nero Digital, QuickTime, Sorenson, XviD 等常见的视频格式, 需要注意的是 Divx 3.11, MS MPEG-4, RV9/10, VP6,WMV9 并不属于标准的 MPEG-4 标准。
第三部(ISO/IEC 14496-3):音频
定义了一个对各种音訊信号进行编码的编解码器的集合。包括高级音訊编码(Advanced Audio Coding,缩写为AAC) 的若干变形和其他一些音频/语音编码工具。即 AAC 音频标准, 包括 LCAAC, HE AAC 等, 支持 5.1 声道编码, 可以用更低的码率实现更好的效果 (相对于 MP3, OGG 等) 。
第四部(ISO/IEC 14496-4):一致性
定义了对本标准其他的部分进行一致性测试的程序。
第五部(ISO/IEC 14496-5):参考软件
提供了用于演示功能和说明本标准其他部分功能的软件。
第六部(ISO/IEC 14496-6):多媒体传输集成框架
即DMIF:Delivery Multimedia IntegrationFramework
第七部(ISO/IEC 14496-7):优化的参考软件
提供了对实现进行优化的例子(这裡的实现指的是第五部分)。
第八部(ISO/IEC 14496-8):在IP网络上传输
定义了在IP网络上传输MPEG-4内容的方式。
第九部(ISO/IEC 14496-9):参考硬件
提供了用于演示怎样在硬件上实现本标准其他部分功能的硬件设计方案。
第十部(ISO/IEC 14496-10):进阶视频编码,也即ITU H.264,常写为H.264/AVC
或称高级视频编码(Advanced Video Coding,缩写为AVC):定义了一个视频编解码器(codec),AVC和XviD都属于MPEG-4编码,但由于AVC属于MPEG-4Part 10,在技术特性上比属于MPEG-4 Part2的XviD要先进。另外从技术上讲,它和ITU-T H.264标准是一致的,故全称为MPEG-4 AVC/H.264。
第十一部(ISO/IEC 14496-11):场景描述和应用引擎
可用于多种profile(包括2D和3D版本)的互交互媒体。修订了MPEG-4 Part 1:2001以及Part1的两个修订方案。它定义了应用引擎(交付,生命周期,格式,可下载Java字节代码应用程序的行为),二进制场景格式 (BIFS:Binary Format for Scene),可扩展MPEG-4文本格式(一种使用XML描述MPEG-4多媒体内容的文本格式)系统level表述。也就是MPEG-4 Part21中的BIFS,XMT,MPEG-J。
第十二部(ISO/IEC 14496-12):基于ISO的媒体文件格式
定义了一个存储媒体内容的文件格式。
第十三部(ISO/IEC 14496-13):IP
知识产权管理和保护(IPMP for Intellectual Property Management and Protection)拓展。
第十四部(ISO/IEC 14496-14):MPEG-4文件格式
定义了基于第十二部分的用于存储MPEG-4内容的視訊檔案格式。
第十五部(ISO/IEC 14496-15):AVC文件格式
定义了基于第十二部分的用于存储第十部分的视频内容的文件格式。
第十六部(ISO/IEC 14496-16):动画框架扩展
动画框架扩展(AFX : Animation Framework eXtension)。
第十七部(ISO/IEC 14496-17):同步文本字幕格式
尚未完成-2005年1月达成”最终委员会草案”,FCD: Final Committee Draft。
第十八部(ISO/IEC 14496-18):字体压缩和流式传输(针对公开字体格式)。
第十九部(ISO/IEC 14496-19):综合用材质流(Synthesized TextureStream)。
第二十部(ISO/IEC 14496-20):简单场景表示
LASeR for Lightweight Scene Representation,尚未完成-2005年1月达成”最终委员会草案”,FCD for Final Committee Draft。
第二十一部(ISO/IEC 14496-21):用于描绘(Rendering)的MPEG-J拓展
尚未完成-2005年1月达成“委员会草案”,CD for Committee Draft)。
Profile和Level
MPEG-4提供大量的编码方式和丰富的设置。 和MPEG-2一样,应用一般不可能支持MPEG-4全集,通过profile和level来描述子集。这些子集,通过 “profile”来表明解码器要求,为了避免计算的复杂,每个profile都有一个或者多个“level”。profile和level的有效组合使得编码生成器只需实现标准中所需的子集,同时保持与其他MPEG-4设备的互通。(解码支持范围通常比编码支持范围大),检查其他MPEG-4设备是否符 合标准,即一致性测试。
对于H.264/AVC(也就是MPEG-4 Part 4)提供下面的profile:
Feature support in particular profiles
Feature |
CBP |
BP |
XP |
MP |
HiP |
Hi10P |
Hi422P |
Hi444PP |
B slices |
No |
No |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
SI and SP slices |
No |
No |
Yes |
No |
No |
No |
No |
No |
Flexible macroblock ordering (FMO) |
No |
Yes |
Yes |
No |
No |
No |
No |
No |
Arbitrary slice ordering (ASO) |
No |
Yes |
Yes |
No |
No |
No |
No |
No |
Redundant slices (RS) |
No |
Yes |
Yes |
No |
No |
No |
No |
No |
Data partitioning |
No |
No |
Yes |
No |
No |
No |
No |
No |
Interlaced coding (PicAFF, MBAFF) |
No |
No |
Yes |
Yes |
Yes |
Yes |
Yes |
Yes |
CABAC entropy coding |
No |
No |
No |
Yes |
Yes |
Yes |
Yes |
Yes |
8×8 vs. 4×4 transform adaptivity |
No |
No |
No |
No |
Yes |
Yes |
Yes |
Yes |
Quantization scaling matrices |
No |
No |
No |
No |
Yes |
Yes |
Yes |
Yes |
Separate Cb and Cr QP control |
No |
No |
No |
No |
Yes |
Yes |
Yes |
Yes |
Monochrome (4:0:0) |
No |
No |
No |
No |
Yes |
Yes |
Yes |
Yes |
Chroma formats |
4:2:0 |
4:2:0 |
4:2:0 |
4:2:0 |
4:2:0 |
4:2:0 |
4:2:0/4:2:2 |
4:2:0/4:2:2/4:4:4 |
Sample depths (bits) |
8 |
8 |
8 |
8 |
8 |
8 to 10 |
8 to 10 |
8 to 14 |
Separate color plane coding |
No |
No |
No |
No |
No |
No |
No |
Yes |
Predictive lossless coding |
No |
No |
No |
No |
No |
No |
No |
Yes |
level用来表明一个profile的解码器的性能要求的范围,例如最大图片分配了,帧频,比特率等等。对于解码器,一个指定的level要求可以对该level以及低于该level的码流进行解码。(A decoder that conforms to agiven level is required to be capable of decoding all bitstreams that areencoded for that level and for all lower levels. 来源:http://en.wikipedia.org/wiki/H.264/MPEG-4_AVC)
Levels with maximum property values
Level |
Max macroblocks |
Max video bit rate (VCL) |
Examples for high resolution @ |
||||
per second |
per frame |
BP, XP, MP |
HiP |
Hi10P |
Hi422P, Hi444PP |
||
1 |
1,485 |
99 |
64 |
80 |
192 |
256 |
128×96@30.9 (8) |
1b |
1,485 |
99 |
128 |
160 |
384 |
512 |
128×96@30.9 (8) |
1.1 |
3,000 |
396 |
192 |
240 |
576 |
768 |
176×144@30.3 (9) |
1.2 |
6,000 |
396 |
384 |
480 |
1,152 |
1,536 |
320×240@20.0 (7) |
1.3 |
11,880 |
396 |
768 |
960 |
2,304 |
3,072 |
320×240@36.0 (7) |
2 |
11,880 |
396 |
2,000 |
2,500 |
6,000 |
8,000 |
320×240@36.0 (7) |
2.1 |
19,800 |
792 |
4,000 |
5,000 |
12,000 |
16,000 |
352×480@30.0 (7) |
2.2 |
20,250 |
1,620 |
4,000 |
5,000 |
12,000 |
16,000 |
352×480@30.7(10) |
3 |
40,500 |
1,620 |
10,000 |
12,500 |
30,000 |
40,000 |
352×480@61.4 (12) |
3.1 |
108,000 |
3,600 |
14,000 |
17,500 |
42,000 |
56,000 |
720×480@80.0 (13) |
3.2 |
216,000 |
5,120 |
20,000 |
25,000 |
60,000 |
80,000 |
1,280×720@60.0 (5) |
4 |
245,760 |
8,192 |
20,000 |
25,000 |
60,000 |
80,000 |
1,280×720@68.3 (9) |
4.1 |
245,760 |
8,192 |
50,000 |
62,500 |
150,000 |
200,000 |
1,280×720@68.3 (9) |
4.2 |
522,240 |
8,704 |
50,000 |
62,500 |
150,000 |
200,000 |
1,920×1,080@64.0 (4) |
5 |
589,824 |
22,080 |
135,000 |
168,750 |
405,000 |
540,000 |
1,920×1,080@72.3 (13) |
5.1 |
983,040 |
36,864 |
240,000 |
300,000 |
720,000 |
960,000 |
1,920×1,080@120.5 (16) |
编解码学习笔记(五):Mpeg系列——AAC音频
下面资料来自wiki。AAC在MPEG2和MPEG4中定义。
- AAC - 使用MPEG-2 Audio Transport Stream( ADTS,参见MPEG-2 )容器,区别于使用MPEG-4容器的MP4/M4A格式,属于传统的AAC编码(FAAC默认的封装,但FAAC亦可输出 MPEG-4 封装的AAC)
- MP4 - 使用了MPEG-4 Part 14(第14部分)的简化版即3GPP Media Release 6 Basic (3gp6,参见3GP ) 进行封装的AAC编码(Nero AAC 编码器仅能输出MPEG-4封装的AAC);
- M4A - 为了区别纯音频MP4文件和包含视频的MP4文件而由苹果(Apple)公司使用的扩展名,Apple iTunes 对纯音频MP4文件采用了".M4A"命名。M4A的本质和音频MP4相同,故音频MP4文件亦可直接更改扩展名为M4A。
- 相对于传统的LC-AAC,High Efficiency AAC(HE-AAC或写为 AAC-HE)又称为 "aacPlus v1" 或 "AAC+" - 结合了 SBR (Spectral Band Replication) and AAC技术;适用于低比特率(64kbps以下);
- HE-AAC v2,又称为 "aacPlus v2" - 结合了 Parametric Stereo(参数化立体 声,PS)和 HE-AAC 中的SBR技术。
因为"AAC"是一个大家族,他们共分为 9 种规格,以适应不同场合的需要,也正是由于 AAC 的规格(Profile)繁多,导致普通电脑用户感觉十分困扰:
- MPEG-2 AAC LC 低复杂度规格(Low Complexity)
- MPEG-2 AAC Main 主规格
- MPEG-2 AAC SSR 可变采样率规格(Scaleable Sample Rate)
- MPEG-4 AAC LC 低复杂度规格(Low Complexity),现在的手机比较常见的 MP4 文件中的音频部份就包括了该规格音频文件
- MPEG-4 AAC Main 主规格
- MPEG-4 AAC SSR 可变采样率规格(Scaleable Sample Rate)
- MPEG-4 AAC LTP 长时期预测规格(Long Term Predicition)
- MPEG-4 AAC LD 低延迟规格(Low Delay)
- MPEG-4 AAC HE 高效率规格(High Efficiency)
编解码学习笔记(六):H.26x系列
部分资料来源与wiki以及http://www.365pr.net/tech_view.asp?id=315。
H.263v3:接下来一个被称为"H.263++" 的项目被随即推出,在H.263+的基础上增加了更多的新的功能。H.263++于2000年底完成。增加了下面的附录:
- Annex A - Inverse transform accuracy specification
- Annex B - Hypothetical Reference Decoder
- Annex C - Considerations for Multipoint
- Annex D - Unrestricted Motion Vector mode
- Annex E - Syntax-based Arithmetic Coding mode
- Annex F - Advanced Prediction mode
- Annex G - PB-frames mode
- Annex H - Forward Error Correction for coded video signal
H.264等同于MPEG-4的第10部,在这里仍然收集资料进行学习记录。
Codec |
MPEG-4 |
H.263 |
MPEG-2 |
H.264 |
39% |
49% |
64% |
MPEG-4 |
-- |
17% |
43% |
H.263 |
-- |
-- |
31% |
编解码学习笔记(七):微软Windows Media系列
资料来源于wiki与 http://chaoqunz.blog.163.com/blog/static/6154877720084493941186/。
微软媒体系列分为WMV(Windows Media Video)和WMA(Windows Media Audio),说白了就是微软的视频和音频。
扩展名: .wmv
互联网媒体类型: video/x-ms-wmv
统一类型标识: com.microsoft.windows-?media-wmv
开发者: 微软公司
格式: 数字视频
正式名称 |
FourCC |
Codec版本 |
描述 |
Windows Media Video v7 |
WMV1 |
0 |
|
Microsoft MPEG-4 Video Codec v3 |
MP43 |
1 |
|
Windows Media Video v8 |
WMV2 |
2 |
|
Microsoft MPEG-4 Video Codec v2 |
MP42 |
3 |
|
Microsoft ISO MPEG-4 Video Codec v1 |
MP4S |
4 |
|
Windows Media Video v9 |
WMV3 |
5 |
|
Windows Media Video v9 Advanced Profile |
WMVA |
6 |
deprecated as not VC-1 不完全兼容。 |
Windows Media Video v9 Advanced Profile |
WVC1 |
7 |
VC-1完整支持 |
常见的有1.0、2.0、3.0三种版本,是基于MPEG-4技术的,其中3.0并不能用于AVI的编码,只能用于生成支持“视频流”技术的ASF文件。
Microsoft MPEG-4 version 1
是微软基础的视频编码,是非标准的MPEG-4,与MPEG-4 Part2不兼容。FourCC:MPG4
Microsoft MPEG-4 version 3
VFW的基础编解码。与V与MPEG-4Part2不兼容。最终只用于ASF文件。FourCC:MP43
Microsoft ISO MPEG-4 version 1.1
与MPEG-4 ASP(AdvancedSimple Profile)兼容。FourCC:M4S2
在WMV7 基 础上改进的版本,质量上面进不了不少。是DMO-based codec。FourCC:WMV2.
Windows Media Video 9 Advanced Profile
随着 Windows Media Player 10 推出的编码器,能够更进一步控制WMV9 的质量。但是不能在老版本的 WMP9 上播放,也就是不兼容老版本的 WMP9,真不知微软在搞什么?
FourCC:WVC1,VC-1兼容。FourCC:WMVA,不推荐使用非VC-1兼容方式。我们可以认为WMV9与VC-1兼容。
微软宣称WMV9提供的压缩率为MPEG-4的2倍,MPEG-2的3倍。微软还宣称WMV9的压缩效率笔WMV8高15%~50%。但是在2005年的一个测试报告中,显示WMV9的压缩效率比WMV8要差。
Windows Media Player 10 Mobile
在wiki上,我们注意到“Windows Media Player 10 Mobile”,显示WMV10将用于移动,可能是Windows Mobile。但是我们没有查到进一步的资料。
扩展名 .wma
互联网媒体类型 audio/x-ms-wma
统一类型标识 com.microsoft.windows-?media-wma
开发者 微软
格式 数字音频
微软最早的音频编码技术,用于 ASF 中,后来被破解也用在 DivX Audio 中,质量比较差。
随着各种不同的 WMV 而推出的相应的音频编码,质量节节提升,不过还没有达到 64kbps CD音质的神化。
Windows Media Audio 9 Professional
WMA9 中 出现的新编码,主要用于多声道编码和高采样率音频的编码,质量不错。
针对语音的编码,最高 20kbps ,不过和 AMR 相比,效果就太差了。
Windows Media Audio 9 Lossless
无损音频编码,可以完美保留CD原质量,是CD备份的不错选择,不过代价是体积过大。
VC-1是基于Windows Media Video 9压缩技术的影像压缩标准,由三大编解码元件所组成,每一个编解码元件都具有其独自的FourCC编码。
也就是WMV 9 Advanced Profile,实现了个更新的,完全符合的AdvancedProfile的VC-1编码标准。它支持隔行扫描内容,与底层传输无关。
wiki上有一篇 VC-1和H.264比较 的文章,很值得看一看。我看到这样的一个段:
VC-1:需付费。Reference decoder 并非免费,不过附赠外部文件
H.264:免费.Reference encoder 和 decoder 也是免费。此外,核查小组及M4IF邮寄名单可在一个可能会收到回答了AVC的有关问题。
除此之外,我们在Google上search H.264 license中也看到了说free的字样。但是,果真如此吗?
我去MEPG-LA网上查阅,发现有AVC/H.264,也就是说这个是需要付费的。在资料中有下面的一张PPT。:
编解码学习笔记(八):Real系列
Real系列是RealNetworks提供的,分为RealVideo和RealAudio。
一般的文件扩展名为.rm/.rvm,现在广泛流行的是rmvb格式,即动态编码率的real video。
RealVideo的第一个版本在1997年释放,是基于H.263格式。在RealPayer5中提供。FourCC为rv10,rv13
也是就要H.263,在RealPlayer6中提供。质量比较糟糕。FourCC为rv20
Internet media type:audio/vnd.rn-realaudio,audio/x-pn-realaudio
RealAudio文件包括多种音频编解码,每个编解码都是用FourCC(Four Character Code)来表示,介绍如下:
- lpcJ: IS-54 VSELP (RealAudio 1)
- 28_8: G.728 LD-CELP (RealAudio 2)
- dnet: Dolby AC3 (RealAudio 3)
- sipr: Sipro Lab Telecom ACELP-NET (RealAudio 4/5)
- cook: G2/Cook Codec (RealAudio 6)
- atrc: Sony ATRAC3 (RealAudio 8)
- raac: MPEG-4 LC-AAC (RealAudio 9)
- racp: MPEG-4 HE-AAC (RealAudio 10)
- ralf: RealAudio Lossless Format (RealAudio 10)
编解码学习笔记(九):QuickTime系列
或者标题可以改为Apple系列。QuickTime 并不是一个编码,而是一个多媒体平台,它的上面有众多编码,这里只针对几个主流的编码器。
QuickTime技术拥有三种主要的组件:
- 媒体播放器,苹果计算机在他自己的网站免费让人下载以及内建在他的计算机中。
- QuickTime 档案格式-公开文件并且任何人都可以使用,不须权利金。
- 软件开发工具可用于Macintosh和Windows平台。这些工具允许人们开发他们自己的软件来操作QuickTime以及其它媒体档案。这些对已注册开发人员是 免费的(注册免费)。
QuickTime历史:1991年到1998年:1.x- 2.x
第一个版本的QuickTime制定的基本架构,到现在基本上还存在未更改,包含多重电影轨道,可扩充的媒体形态支持,一种开放的文件格式,以及完整的编辑功能。原本的视频codec包含:
- Apple视频codec(也称作"Road Pizza"),适合普通现场动作图像。
- 动画codec,使用简单的run-length图形压缩方式,适合卡通形态的大区域颜色很适合。
- 图形codec,对于每一点8位(8-bit-per-pixel)的图像优化,包含有抖色en:dithering的图形。
在接下来的2.1和2.5版本中,QuickTime继续免费。工程师改良了对音乐的支持并增加了sprite轨迹,这个功能可以实现创建复杂的动画,文件大小就只比静态的图片大一点。
QuickTime 2.0 for Windows发布于1994年11月。
QuickTime历史:1998 - 2001: 3.0 and 4.0
QuickTime历史:QuickTime 6.x
QuickTime 6.0 for Mac OS,于2002年7月15日释出,第一次包括Mac OS X使用的版本。
更新至QuickTime 6 |
|||
释出日期 |
版本 |
平台 |
特色 |
2002 年 7 月15 日 |
QuickTime 6 |
Mac OS 8.6 –Mac OS X ,Windows |
MPEG-2 、MPEG-4 以及AAC |
2003 年 1 月14 日 |
QuickTime6.1 |
Mac OS X |
品质与效能的增进 |
2003 年 3 月31 日 |
QuickTime 6.1 |
Windows |
修正CAN-2003-0168 安全性弱点 |
2003 年 4 月29 日 |
QuickTime 6.2 |
Mac OS X |
对于iTunes 4 的支持、增进的AAC 支持 |
2003 年 6 月3 日 |
QuickTime 6.3 |
Mac OS X, Windows |
3GPP 与AMR |
2003 年 10 月16 日 |
QuickTime 6.4 |
Mac OS X, Windows |
Pixlet 编码解码器、集成3GPP |
2003 年 12 月18 日 |
QuickTime 6.5 |
Mac OS X, Windows |
3GPP2 与AMC 移动式多媒体格式 |
2004 年 4 月28 日 |
QuickTime 6.5.1 |
Mac OS X, Windows |
Apple Lossless |
2004 年 10 月27 日 |
QuickTime 6.5.2 |
Mac OS X, Windows (对Windows 98/Me 的最后一个版本) |
修正程序错误、安全性更新、以及品质与效能的增进 |
2005 年 10 月12 日 |
QuickTime 6.5.3 |
Mac OS X v10.2.8 |
更新至QuickTime 7 |
|||
释出日期 |
版本 |
平台 |
特色 |
2005 年 5 月31 日 |
QuickTime 7.0.1 |
Mac OS X |
修复一个关于Quartz Composer 外挂模块 的安全性问题 |
2005 年 7 月15 日 |
QuickTime 7.0.2 |
Mac OS X |
修复程序错误与兼容性的增进 |
2005 年 9 月7 日 |
QuickTime 7.0.2 |
Windows 2000 /XP |
第一个非预览版本释出 |
2005 年 10 月12 日 |
QuickTime 7.0.3 |
Mac OS X & Windows 2000 /XP |
流 与H.264 的程序错误修复。 |
2005 年 10 月29 日 |
QuickTime 7.0.3.50 |
Windows 2000 /XP |
|
2006 年 1 月10 日 |
QuickTime 7.0.4 |
Mac OS X & Windows 2000 /XP |
第一个通用二进制 版本。 |
2006 年 5 月11 日 |
QuickTime 7.1 |
Mac OS X & Windows 2000 /XP |
众多的程序错误修复、对于iLife '06 的支持、以及H.264 效能的改善 |
2006 年 5 月31 日 |
QuickTime 7.1.1 |
Mac OS X |
|
2006 年 6 月28 日 |
QuickTime 7.1.2 |
Mac OS X |
Addresses an issue previewing iDVD projects. |
2006 年 9 月12 日 |
QuickTime 7.1.3 |
Mac OS X & Windows 2000 /XP |
程序错误修复与严重的安全性问题。 |
Sorenson Media 公 司开发的编码器,主要用于QuickTime 4 的视频编码,质量较差。
Sorenson Media 公 司随 QuickTime 5发布的编码器,质量很不错,已经成为 QuickTime 的标准视频编码,网络上大部分电影预告片都采用这种编码。
Apple 公司自己开发的 MPEG-4 编码器,随 QuickTime 6 发布,质量很差。
Apple 公司自己开发的 H.264 编码器,随 QuickTime 7 发布,支持 HDTV。
QDesign 公司开发的音频编码器,这个版本现在已经开不到它的身影了。
QDesign Music 的 第二个版本,也是最后一个版本,在时下这些先进的音频编码面前,它已经没有生命力了,主要应用于网上的电影预告片。
Apple 公司自己开发 的 AAC 编码器,质量非常好,是最优秀的 AAC 编码器之一,随 QuickTime 6 发布。
可将非压缩音频格式(WAV、AIFF)压缩至原先容量的40%至60%左右,编译码速度很快。也因为是无损压缩,听起来与原档案完全一样,不会因解压缩和压缩而改变。
它在2004年4月28日公布的iTunes4.5和QuickTime6.5.1 的其中一部份。目前携带型数字多媒体播放器中只有 iPod 可播放。
虽为非自由软件或开放原始码软件、但 Apple Lossless 的开放原始码译码器已经释出。
编解码学习笔记(十):Ogg系列
Ogg是一个自由且开放标准的容器格式,由Xiph.Org 基金会所维护。Ogg格式并不受到软件专利的限制,并设计用于有效率地串流媒体和处理高质量的数字多媒体。
Ogg意指一种文件格式,可以纳入各式各样自由和开放源代码的编解码器,包含音效、视频、 文字(像字幕)与元数据的处理。
好消息是新一代的 HTML 5标准引入了视频元素,Web开发者可以用一种标准的方式指定视频的外观。现在问题变成了使用哪一种视频格式。
Theora是On2 Technologies 公司的 VP3 编码器的开源衍生版,Google于去年收购了On2公司。
资料来源:http://tech.it168.com/a2010/0412/872/000000872493.shtml
Theora将视频格式建立在开源的基础上,并作为基百科视频内容选择的编码格式。然而,Theora缺少商业支持,并正努力获取分销商尤其是网络分销商接受。
Mozilla使用这项技术在Firefox上提供HTML5视频。苹果和微软的HTML5视频都准备采用 MPEG LA管理的H.264。该团体的成员包括微软和苹果,及许多科技公司。
这里面的争议关键在于license的问题,H.264是需要给license的。
Ogg 的音频编码, 质量非常优秀,特别是低码率下,支持多声道。最高码率能够达到500kbps,是 AAC 的有力竞争者。
On2 公司开发了一系列优秀的视频编码,现在应用得最多的恐怕是 NullsoftVideo 的视频,它们就采用了 VP3,VP5,VP6 视频编码。
已经作为开放源代码公布,现在 是 Ogg Theora 项目,当然,Theora 的质量可比 VP3 好多了。
On2 公司当年吹牛全球最好的视频编码,后来证明质量很一般。
至今还很神秘,On2 并没有放出来,只在 NullsoftVideo 里面见到他的身影。
编解码学习笔记(十一):Flash Video系列
- 文件名: .flv, .f4v, .f4p, .f4a, .f4b
- 媒体类型:video/x-flv, video/mp4, video/x-m4v, audio/mp4a-latm, video/3gpp, video/quicktime, audio/mp4
- 厂家:Adobe Systems (originally developed by Macromedia)
- Type of format: Media container
- Container for :Audio, video, text, data Extended from
- 扩展:FLV: SWF ,F4V: MPEG-4 Part 12
Flash视频FLV文件所包含的媒体的编码通常采用Sorenson Spark和VP6视频压缩格式。最新发布的Flash播放器支持H.264视频和HE-AAC音频。所有的这些编解码目前受到专利的限制。
Flash视频通过广泛使用的Adobe Flash播放器和浏览器的plugin或者其他的第三方程序,使它能在绝大多是的操作系统都可以使用。
文件扩展名 |
Mime Type |
描述 |
.f4v |
video/mp4 |
Video for Adobe Flash Player |
.f4p |
video/mp4 |
Protected Video for Adobe Flash Player |
.f4a |
video/mp4 |
Audio for Adobe Flash Player |
.f4b |
video/mp4 |
Audio Book for Adobe Flash Player |
- 视频:On2 VP6,Sorneson Spark(Sorenson H.263),Screen Video,H.264
- 音频:MP3,ADPCM,Linear PCM,Nellymoser,Speex,AAC,G.711(保留用于互通需求)
在Flash Player和Flash Video中支持的音视频压缩格式 |
||||
Flash Player version |
Released |
File format |
Video compression formats |
Audio compression formats |
6 |
2002 |
SWF |
Sorenson Spark, Screen video |
MP3, ADPCM, Nellymoser |
7 |
2003 |
SWF, FLV |
Sorenson Spark, Screen video |
MP3, ADPCM, Nellymoser |
8 |
2005 |
SWF, FLV |
On2 VP6, Sorenson Spark, Screen video, Screen video 2 |
MP3, ADPCM, Nellymoser |
9.0.115.0 |
2007 |
SWF, FLV |
On2 VP6, Sorenson Spark, Screen video, Screen video 2, H.264[*] |
MP3, ADPCM, Nellymoser, AAC[*] |
SWF, F4V, ISO base media file format |
H.264 |
AAC, MP3 |
||
10 |
2008 |
SWF, FLV |
On2 VP6, Sorenson Spark, Screen video, Screen video 2, H.264[*] |
MP3, ADPCM, Nellymoser, Speex, AAC[*] |
SWF, F4V, ISO base media file format |
H.264 |
AAC, MP3 |
[*]在FLV文件格式中使用H.264和AAC压缩有一些限制,Flash Player的作者强烈推荐大家使用新的F4V文件格式。
二、嵌入SWF文件,使用Flash认证工具(在FlashPlayer 6及以后的版本支持)。
编解码学习笔记(十二):其他编解码
DivX,是DivX公司(前身是DivXNetworks公司)的著名品牌,是一种MPEG-4技术视频编译码器(codec),2007年秋以2200万美元收购德国MainConcept。
编解码学习笔记(十三):容器(上篇)
ISO/IEC |
MPEG-PS · MPEG-TS · MPEG-4 Part 12 /JPEG 2000 Part 12 · MPEG-4 Part 14 |
ITU-T |
H.222.0 |
Others |
3GP and 3G2 · ASF · AVI · Bink · DivX Media Format · DPX · EVO · Flash Video · GXF · M2TS · Matroska · MXF · Ogg · QuickTime File Format · RealMedia · REDCODE RAW · RIFF · Smacker · MOD and TOD · VOB · WebM |
Audio Only |
AIFF · AU · WAV |
3G2(3GPP2文件格式)是一个多媒体容器有3GPP2为3G CDMA 2000多媒体服务定义。她与3GP文件格式非常相似,但与之相比存在一些扩展和限制。3G2在3GPP2技术规范中定义。
ANIM标准的多媒体文件用于经典的Commodore Amiga的数字动画。它遵循IFF ILBM主规范,他是第一个动画格式被操作系统正式采纳。
- 文件扩展名 :.asf .wma .wmv
- 互联网媒体类型: video/x-ms-asf, application/vnd.ms-asf
- 类型码 : 'ASF_'
- 唯一类型码 :Identifier com.microsoft.advanced-systems-format
- Magic number :30 26 b2 75
- 开发者 :Microsoft
- 格式类型 :Container format
- 容器容纳 :WMA, WMV, MPEG4 etc.
- 视频名称(括号内表示的是此视频的FourCC)
o MPEG-1/-2 (MPEG/MPG1/MPG2)
o MPEG-4 (MP4V/XVID/DX50/DIVX/DIV5/3IVX/3IV2/RMP4)
o MS-MPEG4 (MPG4/MP42/MP43)
o WMV7/WMV8/WMV9 (WMV1/WMV2/WMV3)
o DV(DVSD/DVIS)
o Flash Video (FLV1/FLV4)
o Motion JPEG (MJPG)
o LossLess JPEG (LJPG)
o H.264 (AVC1/DAVC/H264/X264)
o H.263 (H263/S263)
o H.261 (H261)
o Huffyuv (HFYU)
o AVIzlib (ZLIB)
o AVImszh (MSZH)
o Theora (THEO)
o Indeo Video (IV31/IV32)
o Cinepak (cvid)
o Microsoft Video 1 (CRAM)
o On2VP3 (VP30/VP31)
o On2VP4 (VP40)
o On2 VP6 (VP60/VP61/VP62)
o VC-1 (WVC1) - 音频
o PCM
o MP3 (0x0055)
o AC-3 (0x0092)
o AAC
- HE-AAC
- LC-AAC
o FLAC
o Indeo Audio
o TrueSpeech
o WMA
o Vorbis
MPEG-PS:MPEG节目流(programstream),是MPEG-1和MPEG-2基准流的标准容器,用于在可靠介质上,例如磁盘,也用于DVD-Video光碟。
MPEG-TS:MPEG传输流,是数字广播和在非可靠媒体传输的标砖容器,也在蓝光光碟使用,通常携带多个视频和音频流以及一个电子节目指南。
编解码学习笔记(十四):容器(下篇)
MKV ,不是任何的编解码或者系统的标准,但实际上可封装任何的东西。是一个开放以及开源的容器格式。
- MKV (Matroska Video File) :视频档,可以包含音频和字幕;
- MKA (Matroska Audio File) :单一的音频档,可以有多条及多种类型的音轨;
- MKS (Matroska Subtitles) :字幕文件。
Matroska的开发是对多种传统媒体格式的一次大挑战,虽则如此,Matroska也被开发成一个多功能的多媒体容器。
OGM(Ogg Media),是Xiph.ofg的视频编解码容器,已经不再支持,并不鼓励使用。
各种音视频编解码学习详解相关推荐
- 各种音视频编解码学习详解之 编解码学习笔记(三):Mpeg系列——Mpeg 1和Mpeg 2
最近在研究音视频编解码这一块儿,看到@bitbit大神写的[各种音视频编解码学习详解]这篇文章,非常感谢,佩服的五体投地.奈何大神这边文章太长,在这里我把它分解很多小的篇幅,方便阅读.大神博客传送门: ...
- 各种音视频编解码学习详解之 编解码学习笔记(四):Mpeg系列——Mpeg 4
最近在研究音视频编解码这一块儿,看到@bitbit大神写的[各种音视频编解码学习详解]这篇文章,非常感谢,佩服的五体投地.奈何大神这边文章太长,在这里我把它分解成很多小的篇幅,方便阅读.大神博客传送门 ...
- 各种音视频编解码学习详解之 编解码学习笔记(十三):容器
最近在研究音视频编解码这一块儿,看到@bitbit大神写的[各种音视频编解码学习详解]这篇文章,非常感谢,佩服的五体投地.奈何大神这边文章太长,在这里我把它分解成很多小的篇幅,方便阅读.大神博客传送门 ...
- 各种音视频编解码学习详解之 编解码学习笔记(八):Real系列
最近在研究音视频编解码这一块儿,看到@bitbit大神写的[各种音视频编解码学习详解]这篇文章,非常感谢,佩服的五体投地.奈何大神这边文章太长,在这里我把它分解成很多小的篇幅,方便阅读.大神博客传送门 ...
- 音视频编解码学习详解
音视频编解码学习详解 目录(?)[+] 编解码学习笔记二codec类型 编解码学习笔记三Mpeg系列Mpeg 1和Mpeg 2 编解码学习笔记四Mpeg系列Mpeg 4 编解码学习笔记五Mpeg系列A ...
- 各种音视频编解码学习详解之 编解码学习笔记(六):H.26x系列
最近在研究音视频编解码这一块儿,看到@bitbit大神写的[各种音视频编解码学习详解]这篇文章,非常感谢,佩服的五体投地.奈何大神这边文章太长,在这里我把它分解成很多小的篇幅,方便阅读.大神博客传送门 ...
- 各种音视频编解码学习详解之 编解码学习笔记(十):Ogg系列
最近在研究音视频编解码这一块儿,看到@bitbit大神写的[各种音视频编解码学习详解]这篇文章,非常感谢,佩服的五体投地.奈何大神这边文章太长,在这里我把它分解成很多小的篇幅,方便阅读.大神博客传送门 ...
- 各种音视频编解码学习详解 h264 ,mpeg4 ,aac 等所有音视频格式
编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析.应用开发.释放license收费等等 ...
- 各种音视频编解码学习详解 h264 ,mpeg4 ,aac 等所有音视频格式 详解
http://blog.csdn.net/wishfly/article/details/50187417 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间.尤其移动互联网业务的兴起,在运 ...
- 【FFMPEG】各种音视频编解码学习详解 h264 ,mpeg4 ,aac 等所有音视频格式
目录(?)[-] 编解码学习笔记二codec类型 编解码学习笔记三Mpeg系列Mpeg 1和Mpeg 2 编解码学习笔记四Mpeg系列Mpeg 4 编解码学习笔记五Mpeg系列AAC音频 编解码学习笔 ...
最新文章
- RabbitMQ的集群模式
- 以使用QSqlQuery向数据库中插入数据为例,做一个小结
- mysql 批量插入数据过多的解决方法
- 解决安装win7后ubuntu无法启动问题
- 洛谷P5664:Emiya 家今天的饭(容斥、dp)
- 【记】jQuery中的选择器:visible对visibility:hidden的处理
- SharePoint创建web application的时候报错
- dataobject java_Object类和@Data注解
- 【优达学城测评】SQLite 安装(2)
- [HDOJ1823] Luck and Love(线段树,树套树)
- lindows.javaeye.com
- 编码表概述和常见编码表
- Mate30安装谷歌全家桶(20200215,成功)
- Apollo学习笔记(一):canbus模块与车辆底盘之间的CAN数据传输过程
- 视觉SLAM总结-本质矩阵E分解
- phpstudy php56 zend,关于shopex 4.9 php5.6版安装环境问题
- uboot 中内存测试,内存检测方法
- 阿基米德螺旋线lisp_CAD画阿基米德螺旋线程序
- [转] 校园职场』 [公告]兰州城市学院学生因自习室“抢座位”引发血案,造成7人伤亡(转载)
- hive_hbase一个综合练习题目总共包括以下部分