视频为什么需要进行编码压缩

一张为720x480的图像,用YUV420P的格式来表示,其大小为:

720 x 480 x 1.5 约等于0.5MB。

如果是25帧,10分钟的数据量

0.5M x 10 x 60 x 25 = 7500MB >7GB

视频编码压缩的目的是降低视频数据大小,方便存储和传输

为什么压缩的原始数据一般采用YUV格式

视频编码是对一张张图像来进行的。我们知道彩色图像的格式是 RGB 的,但RGB 三个颜色是有相关性的

采用YUV格式,利用人对图像的感觉的生理特性,对于亮度信息比较敏感,而对于色度信息不太敏感,所以视频编码是将Y分量和UV分量分开来编码的,并且可以减少UV分量,比如我们说YUV420Pr如下图示:

视频压缩原理-数据冗余

编码的目的是为了压缩,各种视频编码算法都是为了让视频体
积变得更小,减少对存储空间和传输带宽的占用。编码的核心
是去除冗余信息,通过以下几种冗余来达到压缩视频的目的:

  1. 空间冗余:图像相邻像素之间有较强的相关性,比如一帧
    图像划分成多个 16x16 的块之后,相邻的块很多时候都有
    比较明显的相似性。
  2. 时间冗余:视频序列的相邻前后帧图像之间内容相似,比
    如帧率为 25fps 的视频中前后两帧图像相差只有 40ms,前
    后两张图像的变化较小,相似性很高。
  3. 视觉冗余:我们的眼睛对某些细节不敏感,对图像中高频
    信息的敏感度小于低频信息的。可以去除图像中的一些高
    频信息,人眼看起来跟不去除高频信息差别不大(有损压
    缩)。
  4. 编码冗余(信息熵冗余):一幅图像中不同像素出现的概
    率是不同的。对出现次数比较多的像素,用少的位数来编
    码。对出现次数比较少的像素,用多的位数来编码,能够
    减少编码的大小。比如哈夫曼编码。

图像帧的类型 (I帧、P帧和B帧)

I帧、P帧和B帧是视频压缩领域中的基础概念,用于提升视频压缩效率、视频质量和视频
恢复能力。
◼ I帧(关键帧或帧内帧)仅由帧内预测的宏块组成。
◼ P帧代表预测帧,除帧内空域预测以外,它还可以通过时域预测来进行压缩。P帧通过
使用已经编码的帧进行运动估计。
◼ B帧可以参考在其前后出现的帧,B帧中的B代表双向(Bi-Directional)。

I帧可以独立解码 编码 B帧要解码就要参考P帧 P帧要解码就要参考I帧 所以 当I BBBBBBB…P 传输过程中如果B帧过多就会造成延迟过大问题

GOP(一组图像,Group of Pictures)和GOP长度

◼ 一个序列的第一个图像叫做 IDR 图像(立即刷新图像),IDR 图像都是 I 帧图像。
在视频编码序列中,GOP即Group of picture(图像组),指两个IDR帧之间的距离。 ◼ GOP长度越大,视频压缩效率越高,但视频质量和视频流恢复能力也越差,反之亦
然。
◼ 直播,如果是一秒25帧,一般gop设置为25, 50(一般是帧率的倍数).
◼ 如果不是直播流,B帧一般设置2帧连续B帧,以降低码率。

ps IDR帧一定是 I帧 反之不一定

5.1 GOP之Closed GOP和Open GOP

Closed GOP和Open GOP常见于视频流中,并影响压缩效率、视频容错能力以及ABR流的切换能力。
◼ 顾名思义,Closed GOP对GOP外部的帧是封闭的。一个属于Closed GOP的帧只能参考这个GOP之内
的帧。
◼ Open GOP与Closed GOP相反,Open GOP内部的帧可以参考其他GOP中的帧。

5.2 GOP间隔

GOP 越大,编码的 I 帧就会越少。相比而言,P 帧、B 帧的压缩率更高,因此整个视频的编码效率就会越高。但是 GOP 太大,也会导致 IDR 帧距离太大,点播场景时进行视频的seek 操作就会不方便。

H264编码原理

对于每一帧图像,是划分为一个个块进行编码,就是我们说的宏块。
宏块大小一般是 16x16(H264、VP8),32x32(H265、VP9),64x64(H265、VP9、AV1),128x128(AV1)

看完书以后仔细补充

6.1 宏块扫描

对于一个 YUV 图像,可以把划分成一个个 16x16 的宏块(以 H264 为例),Y、U、V 分量的大小分别是 16x16、8x8、8x8。这里我们只对 Y 分量进行分析(U、V 分量同理)。假设 Y 分量这16x16 个像素就是一个个数字,采用“之”字方式扫描每一个像素值,则可以得到一个“像素串”。
压缩的目的是使得编码器当前的字符出现连续相同的字符,比如1,1,1,1,1,1,1,1,我们可以描述为8个1.
数字越小越容易用更少的bit做压缩,比如一连串数字很小(比如 0,1,2,1,0)的“像素串” ,因为 0 在二进制中只占 1 个位,2只占2个位即可。

6.2 帧内预测
  1. 帧内预测就是在当前编码图像内部已经编码完成的块中找到与将要编码的块相邻的块。一般就是即将编码块的左边块、上边块、左上角块和右上角块,通过将这些块与编码块相邻的像素经过多种不同的算法得到多个不同的预测块。
  2. 然后我们再用编码块减去每一个预测块得到一个个残差块。最后,我们取这些算法得到的残差块中像素的绝对值加起来最小的块为预测块。而得到这个预测块的算法为帧内预测模式。


    这里是只说了一个方向后续补充
6.3 帧间预测

◼ 同理,帧间预测也是一样的。我们在前面已经编码完成的图像中,循环遍历每一个块,将它作为预测块,用当前的编码块与这个块做差值,得到残差块,取残差块中像素值的绝对值加起来最小的块为预测块,预测块所在的已经编码的图像称为参考
帧。预测块在参考帧中的坐标值 (x0, y0) 与编码块在编码帧中的坐标值 (x1, y1) 的差值 (x0 - x1, y0 - y1) 称之为运动矢量。
◼ 而在参考帧中去寻找预测块的过程称之为运动搜索。事实上编码过程中真正的运动搜索不是一个个块去遍历寻找的,而是有快速的运动搜索算法的。
◼ 通过预测得到的残差块的像素值相比编码块的像素值,去除了大部分空间冗余信息和时间冗余信息,这样得到的像素值更小。

后续补充

6.4 DCT 变换和量化

◼ 我们的目标不只是将像素值变小,而是希望能出现连续的 0 像素
◼ 这就需要利用我们人眼的视觉敏感性的特点了。我们刚才说了人眼对高频信息不太敏感。因为人眼看到的效果可能差别不大,所以我们可以去除一些高频信息。这个就是接下来我们要讨论的 DCT 变换和量化。


上图参考哈夫曼编码 需要位数多的数量多的 用小位数 需要位数少的用多位数

由于人眼对高频信息不太敏感,如果我们通过一种手段去除掉大部分高频信息,也就是将大部分高频信息置为 0,但又不太影响人的观感,是不是就可以达到我们最初的目标,即可以得到有一连串 0 的像素串?这就涉及到量化操作了。
◼ 我们让变换块的系数都同时除以一个值,这个值我们称之为量化步长,也就是 QStep(QStep 是编码器内部的概念,用户一般使用量化参数 QP 这个值,QP 和 QStep 得到的结果就是量化后的系数。QStep 越大,得到量化后的系数就会越小。同时,相同的 QStep 值,高频系数值相比低频
系数值更小,量化后就更容易变成 0。这样一来,将大部分高频系数变成 0。如下图所示:

简单说就是! 2的不同倍数作为最小单位 本来256需要8个字节 如果4为最少单位就只要7个字节

◼ 解码的时候,需要将 QStep 乘以量化后的系数得到变换系数,很明显这个变换系数和原始没有量化的变换系数是不一样的,这个就是常说的有损编码。
◼ 而到底损失多少呢?其由 QStep 来控制,QStep 越大,损失就越大。QStep 跟 QP 一一对应。从编码器应用角度来看,QP 值越大,损失就越大,从而画面的清晰度就会越低。同时,QP 值越大系数被量化成 0 的概率就越大,这样编码之后码流大小就会越小,压缩就会越高。

编码原理总结

◼ 为了能够在最后熵编码的时候压缩率更高,对于送到熵编码(以行程编码为例)的“像素串”,包含的0越多,越能提高压缩率。为了达到这个目标:
◼ 先通过帧内预测或者帧间预测去除空间冗余和时间冗余,从而得到一个像素值相比编码块小很多的残差块。
◼ 然后再通过 DCT 变换将低频和高频信息分离开来得到变换块,然后再对变换块的系数做量化。
◼ 由于高频系数通常比较小,很容易量化为 0,同时人眼对高频信息不太敏感,这样就得到了一串含有很多个 0,大多数情况下是一串含有连续 0 的“像素串”,并且人的观感还不会太明显。这样,最后熵编码就能把图像压缩成比较小的数据,以此达到视频压缩的目的。
◼ 这即是视频编码的原理

H264编码(看完书在补充)相关推荐

  1. 什么是看书?看书不是仅仅看完书!

    发现许多新入门的朋友,特别是一些学生,每次都说我已经看完了XXX书,我接下来看什么书啊? 我感到很奇怪,他好像觉得书我已经看了,我就已经会了,我应该去学习更多的知识了.这是一个不自觉的误解,也许是一些 ...

  2. 看完书要及时消化(1)《暗时间》

    前提:     我们有一个被广泛认可的记忆机制,即:我们在记忆的时候将许多线索(例如当时的场景,问题的背景,甚至所处的语言环境,空间位置)一并编码进了记忆,事后能否提取出这段记忆严重取决于提取线索是否 ...

  3. python买什么书好-python看什么书好

    推荐学习python的几本书,有需要的小伙伴学习下. <Python编程 从入门到实战> 本书中涵盖的内容是比较精简的,没有艰深晦涩的概念,最重要的是每个小结都附带有"动手试一试 ...

  4. 自学python入门-学python入门看什么书

    python语言是最近几年流畅起来的编程语言,因其应用范围广,支持跨平台操作,使得python越来越受欢迎,学习python的人也越来越多.python学习网,大量的免费python视频教程,欢迎在线 ...

  5. 初学者学python看什么书-python初学者看什么书

    俗话说:工欲善其事,必先利其器!对于零基础入门的人来说,对于Python的学习还是有点懵懵懂懂的,如果有一些书籍先看看来引导,学起来难度也会减低很多,同时会提高学习者的自信心!今天向推荐这些零基础入门 ...

  6. python看什么书-自学python看什么书

    俗话说:工欲善其事,必先利其器!对于零基础入门的人来说,对于Python的学习还是有点懵懵懂懂的,如果有一些书籍先看看来引导,学起来难度也会减低很多,同时会提高学习者的自信心!今天向推荐这些零基础入门 ...

  7. python推荐入门书籍-学python入门看什么书

    python语言是最近几年流畅起来的编程语言,因其应用范围广,支持跨平台操作,使得python越来越受欢迎,学习python的人也越来越多.python学习网,大量的免费python视频教程,欢迎在线 ...

  8. python爬虫什么书好_初学python爬虫看什么书

    适合学习Python的书籍: <Python编程 从入门到实战> 本书中涵盖的内容是比较精简的,没有艰深晦涩的概念,最重要的是每个小结都附带有"动手试一试"环节,学编程 ...

  9. python小白应该看什么书_小白学python看什么书

    适合小白阅读的python入门书有 <Python编程 从入门到实战> 本书中涵盖的内容是比较精简的,没有艰深晦涩的概念,最重要的是每个小结都附带有"动手试一试"环节, ...

最新文章

  1. 挑战8门UDACITY课程学习方法总结
  2. 有人喜欢爱情测试小游戏么
  3. 什么是 Webhook?
  4. Boost:以协程的方式实现带有单个默认值的echo服务器的实例
  5. android静态类保存context,Android:静态获取Context是一个好习惯吗?
  6. leetcode - 264. 丑数 II
  7. 【Elasticsearch】Elasticsearch 的异步搜索原理解析 _async_search
  8. numpy.linalg.eig() 计算方形矩阵的特征值和特征向量
  9. ELM322 - OBD (VPW) to RS232 Interpreter (v2.0)
  10. mapreduce 多种输入
  11. JAVA创建对象有哪几种方式
  12. 微博android签名工具,微博签名
  13. 点对点广域网技术介绍
  14. c# directory.getfiles按照文件名称
  15. win7计算机资源管理器卡住,Win7电脑资源管理器一直卡住怎么办_Win7电脑资源管理器一直卡住的解决方法 - 系统家园...
  16. 如何选择适合你的兴趣爱好(九),钓鱼
  17. Gronwall 不等式
  18. 【游戏技术】SourceMod 用法说明
  19. EasyBCD 2.2 下载地址 百度云
  20. Monkey测试—真机测试步骤

热门文章

  1. 网站页面性能优化的35条黄金守则
  2. OpenGL原理与实践——核心模式(六):光照贴图、光源分类以及多光源场景主要源码实现
  3. android 自动批量打包,AutopackingAndroid
  4. linux 解压缩后没权限,Linux的权限管理及基础常用命令
  5. matlab计算结果为inf,matlab里的mean为什么计算结果是inf
  6. 中国环境服务行业十四五规划目标与建设现状分析报告2022-2028年
  7. python Decimal类型
  8. 360 php SQL注入,CMSeasy SQL注入漏洞一发(bypass自身与360waf)
  9. WordPress 如何阻止垃圾评论?
  10. 抖音进入“学习”圈,短视频开启“泛知识”肉搏战