"The world is too much with us".

为了更好地认识这个纷繁复杂的世界,人类进化出了一套独特的视觉系统——中央凹成像系统,即当我们看东西时,眼睛聚焦的地方会看得更加清晰,而对于周围区域只能看个大概,这种成像方式既能让我们看清关键物体的细节,又能具有较大的视野。

例如,人在开车时,既能看清前方的路,又能兼顾两侧,这就是中央凹成像系统的功劳。前方的道路和车辆就是人眼主观关注与感兴趣的区域,而对于周边的蓝天、草地等非关注区域,人眼并不会产生过多关注。

正是中央凹成像系统让人类拥有了特殊的视觉注意力机制,在处理复杂视觉信息时,能够迅速将注意力和神经计算资源集中到场景的重要区域上。

由于这样的人眼视觉特殊性,人们在观看视频及图像时,往往会希望主观关注及感兴趣区域能够拥有较高的清晰度,而对于非关注区域,只需要达到基本视觉要求即可。

ROI视频编码技术

ROI:Regions of Interest,感兴趣区域

基于主观质量衡量标准,在视频编码过程中,我们可以对感兴趣区域进行低压缩比,甚至是无损压缩编码,以获得高质量的重建图像,而对非关注区域采用较高压缩率,这就是ROI视频编码技术

微帧ROI (region of interest) encoding是一项基于感兴趣区域的视频编码技术,即对图像中感兴趣的区域降低量化参数值,从而分配更多码率以提升画面质量,而对不感兴趣的区域则提高量化参数值,从而分配更少码率,在不损失图像整体质量的前提下,降低视频码率。

右图:经微帧ROI智能编码处理后,码率不变,画质大幅提升

ROI视频编码码率分配的基本思路是:在视频编码前,对输入的视频场景进行视觉感知分析以确定感兴趣区域。在编码过程中,通过调整编码参数,为感兴趣区域分配更多码率,使其拥有更好的视觉质量,而其他区域则相应减少分配的码率,因其误差敏感度较低而对整体视频质量影响较小。

在同样的码率限制下,这种码率分配方案的编码结果将会比传统的分配码率的结果有更好的主观视觉质量。

几类不同的感兴趣区域检测

1)中心区域

屏幕中间或固定其他地方的ROI区域,此类型ROI是基于经验的判断,在正常视频的拍摄手法上通常会将最重要的内容放在画面最中间。

2)人脸

人脸是人最明显的特点之一,在视频中明显位置出现的人脸会很容易被观众注意,因此人脸是最显著的主观敏感区域。

对此ROI区域的编码需要先准确定位人脸,再做针对性地画质调优以及编码参数调优。微帧智能转码系统支持标准版和超低复杂度版本人脸检测,其中标准版处理1080p视频平均在3ms每帧以内;超低复杂度版本在1ms每帧以内。适配秀场、综艺、安防、影视等包含人脸的场景。如下图所示,标准版人脸检测即使在多人脸、遮挡、侧脸、小脸等条件下也能获得较好的检测结果。

3)人眼聚焦区域(主观感兴趣区域)

人眼聚焦区域数据集一般是通过眼动仪获取。微帧智能转码系统支持标准版和超低复杂度版人眼聚焦区域检测。

3.1 标准版聚焦区域检测

标准版聚焦区域检测,采用眼动仪得到训练样本,有效定位人眼聚集区域,适配绝大部分场景。

3.2 超低复杂度版聚焦区域检测

超低复杂度版聚焦区域检测,1080P视频CPU单核运算时间在1ms每帧以内,复杂度基本忽略不计。

4)各个块本身的主观敏感度

x264默认的自适应量化(AQ),仅依据方差大小作为评判依据,对于方差大的块施以更大的量化因子。方差大小的鲁棒性不足,甚至都不能很好地判断平滑程度。如图示例的一维信号,左图的方差比右图更大,事实上左图是比较平滑的。

以RaceHorses为例,按照x264中的AQ技术,第一行宏块,正好绿色草丛背景块的方差比较小,而涵盖了帽子、人脸、人眼的宏块方差比较大,导致主观敏感的人脸/人眼被施加了较大的delta QP。微帧智能转码系统区分了易被人眼关注的规则纹理,加以保护,在其他编码条件相同的条件下,取得明显改善。

5G时代的到来,人们对于视频质量的要求愈发高涨,视频码率也呈现出成倍增长的趋势,这给视频运营平台短期内的CDN成本、用户观看体验等方面带来了巨大挑战。

面对这样的挑战,人们不得不继续优化视频编码标准,以提高编码效率。除了不断推出新视频标准之外,ROI编码等AI技术也变得尤为重要。微帧多次主观测评显示,ROI编码与传统编码相比,主观整体视觉效果都有显著提升,在较低带宽的环境下尤为明显。ROI编码技术既能够获得期望的高质量画面,又保持了较低的码率,更好地解决了码率与画质之间的矛盾。

微帧ROI视频智能编码:基于人眼感兴趣区域,实现极致观感体验相关推荐

  1. matlab如何手动选择图像目标区域,如何用MATLAB实现感兴趣区域ROI的选取

    描述 感兴趣区域 感兴趣区域(Regions of Interest,ROI)这一概念,是指图像中最能引起用户兴趣.最能表现图像内容的区域.感兴趣区域(Regions of Interest,ROI) ...

  2. 论文阅读:基于感兴趣区域的360°全景视频编码

    论文名字 基于感兴趣区域的360°全景视频编码 来源 期刊   激光与光电子学进展 年份 2018 作者 吴志强,郁梅,姜浩,陈芬,蒋刚毅 核心点 提出一种基于ROI的360°全景视频编码算法 阅读日 ...

  3. 用tim从左到右移动帧(感兴趣区域)的Moviepy裁剪视频

    我正在使用MoviePy从服务器上的视频剪辑自动创建GIF.图书馆帮助进行各种各样的视频转换和剪辑,以创建gif.在 在我当前的项目中,我有一个视频剪辑,里面有很多移动的物体,很难对感兴趣的区域进行自 ...

  4. ROI感兴趣区域提取与泛洪填充

    一.ROI提取 1.定义:ROI提取称对感兴趣区域提取. 2.作用:勾勒感兴趣的区域,可以是方框.圆.椭圆.不规则形状等. 3.应用:以视频监控领域ROI智能视频编码技术为例,具有ROI功能的摄像机可 ...

  5. 基于python的移动物体检测_感兴趣区域的移动物体检测,框出移动物体的轮廓 (固定摄像头, opencv-python)...

    感兴趣区域.特定区域.框出移动物体的轮廓.越界检测.入侵物体检测.使用 opencv-python库的函数cv2.findContours.cv2.approxPolyDP.cv2.arcLength ...

  6. ROI Pooling(感兴趣区域池化)

    引言 感兴趣区域池化(Region of interest pooling)(也称为RoI pooling)是使用卷积神经网络在目标检测任务中广泛使用的操作.例如,在单个图像中检测多个汽车和行人.其目 ...

  7. ROI Pooling(感兴趣区域池化)【笔记】

    引言 感兴趣区域池化(Region of interest pooling)(也称为RoI pooling)是使用卷积神经网络在目标检测任务中广泛使用的操作.例如,在单个图像中检测多个汽车和行人.其目 ...

  8. 使用 OpenCV 和 Tesseract 对图像中的感兴趣区域 (ROI) 进行 OCR

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在这篇文章中,我们将使用 OpenCV 在图像的选定区域上应用 O ...

  9. 【QtOpenCV 图像的感兴趣区域ROI】

    图像的ROI(region of interest)是指图像中感兴趣区域.在OpenCV中图像设置图像ROI区域,实现只对ROI区域操作. 文章目录 前言 一.GUI 二.实现代码 1.Rubber ...

最新文章

  1. 你需要知道的20个常用的Python技巧
  2. Mybatis中的attempted to return null from a method with a primitive return type (int).异常
  3. 【CV】基于UNet网络实现的人像分割 | 附数据集
  4. android 静态广播无效,Android8.0静态广播接收静态注册无效,并实现全局网络监听...
  5. hdu1213 How Many Tables-并查集
  6. Python(28)-异常
  7. html5 上海,【上海校区】HTML5新特性
  8. android内核读取file文件
  9. 只保留日期_第五人格五个特定活动道具十分少见 最后一个一年只出现一次
  10. java实现qq聊天(超详细)
  11. java 遍历 文件_Java的后台文件夹下文件的遍历完整代码
  12. 教育教学中,为什么需要培养学生的创新思维?
  13. Curator的基本使用
  14. Java/java程序设计:房屋出租系统:要求实现:新增房源,查找房屋信息,修改房屋信息,删除房屋信息,显示所有房屋列表,退出房屋管理系统;
  15. 职场分享:职场生涯中我们经常面临的一些困惑
  16. [智能硬件]是什么?智能硬件应用领域包括哪些?
  17. [NKNY]寒假培训《NY寒假有奖欢乐赛 》总结
  18. Javascript进阶笔记
  19. TCP三次握手代码分析与过程跟踪
  20. EN 13950:石膏板CE认证

热门文章

  1. 推荐一个免费云服务器,免费虚拟主机
  2. 当程序员遇到会写代码的产品经理......
  3. 【Python游戏开发】史上最有趣的一款象棋代码,真是太好玩了,这些人都说它比国际象棋更好玩,不服你往下看?(敲赞啊~)
  4. diskgeniuslinux版_硬盘工具DiskGenius v4.5.0 发布
  5. 通俗易懂说字节序,大小端,网络序和主机序(2)htonl和ntohl 源码实现
  6. Windows编程---使用C/C++语言创建一个窗口
  7. 计算机启动时最先运行的程序储存在,2012年自考计算机应用基础试题及答案
  8. PDF编辑器怎么使用?PDF编辑器的操作方法
  9. android广告平台哪个好用,安卓手机里谁家系统广告最少?看完后想说:真怕小米MIUI垫底!...
  10. 双 JK 触发器 74LS112 逻辑功能。真值表_由热靴移至机侧 尼康发布全新闪灯触发器_...