论文阅读:Prediction With Multicross Component forFuture Video Coding
论文来源:2020 IEEE Digital Object Identififier
概要:为了全方位探索不同色彩通道之间的相似度,本文面向AVS3标准提出了一种跨分量预测方法PMC作为一种新的色度帧内预测模式。这种预测模式复杂度低灵活性强。它重用并改革了传统的两部跨分量预测模式(TSCPM模式)。此外,PMC的双预测方式也增强了预测效率。实验结果显示PMC模式在AVS3的参考软件HPM6.0上测试,在自然场景序列上分别带来了0.32%、1.60%和2.39%的性能提升,在SCC场景下带来了0.91%、2.24%和2.82%的性能提升。AVS3标准已经采纳了PMC的子模式。
Introduction
YCbCr是视频编解码领域中非常普遍的色彩空间,并且在能量压缩(Energy Compaction)上展示出了非常强大的优势。不同色彩通道之间也存在一些相关性。早在HEVC的研发过程中,跨分量线性模型(CCLM)就已经被提出过,其旨在利用最小二乘回归(LSR)建立一个邻近重建亮度像素和色度像素之间的线性模型。然而由于CCLM方法中的依赖关系对硬件并不友好,HEVC的main profile中并没有包括CCLM,而是在range extension profile中,残差域的CCLM被应用于YUV444格式的序列压缩[8],从而有效地保真、提升压缩性能。CCLM的有效性使得在VVC和AVS3标准的研究中,用基于下采样的线性推导去促进其在编解码器中的硬件实现[3][9]。
考虑到自然场景下的序列的色彩和问题的多样性,简单的线性模型或许不足够去捕捉亮色度之间的关系。这里列举了几个提升跨分量预测性能的工作:
[10]提出了一个基于多个线性模型的CCLM,根据亮度的强度对参考样本进行分类并且推导出多个线性预测模型,从而提高预测精确度。在这种方式下,亮色度之间的映射变成了不连续的线性映射。此外还针对YUV420格式的序列采用了多种降采样滤波器,以找出最佳的亮色度对应关系。 基于多假设原理,CCLM方式还跟帧内角度模式结合起来。由于物体有可能横跨CU的边界,因此三种CCLM模式,即LM-L(只利用正左方的样本)、LM-A(只利用正上方的样本)、LM-O(利用右上角和左下角的样本)[11],并由RDO决定采用哪种模式。为了补偿线性模式推导中的不好的情况,[12]提出一种模型校正方案。[13]还提出自适应Cr预测方案,CR可以用亮度预测、也可以用Cb预测、也可以用亮度和Cb的加权来预测。由于线性模型是以更复杂的方式导出的,不可忽视的计算负担被强加到编码器和解码器。除了这些传统的练速度映射方案,[14]提出一种基于神经网络的跨分量预测方案,邻近重建亮色度对和对应的重建亮度像素被输入到网络当中,得出一种更精确的映射关系,可以提升2%~3%的色度BDrate节省。不过这种方法的计算复杂度也是非常高,达到了不能容忍的程度。
现存的AVS3和VVC标准里的的跨分量预测方案聚焦于消除亮度与Cb分量、亮度与Cr分量之间的冗余,而没有考虑三个通道之间的冗余。图1和图2展示了这种现象。根据图1(e)-(g),可以在任意两个颜色通道之间观察到近似的线性关系。在图2中,有趣的是,Y-Cb和Y-Cr之间的线性相关性较弱,而Cb和Cr之间的线性相关性较强。这促使我们利用三个通道之间的相关性来提高跨成分预测的效率。
本文提出了PMC,是会议论文[15]的延伸。主要区别如下:1)提出双预测方式,充分发掘三个通道之间的相互关系和相似性,从而利用Cr的重建像素和亮度通道一起预测Cb通道。2)在进行第三分量的预测时,提供了多个参数集来平衡不同分量的权重。如此以来,一共支持12个PMC模式。加权参数集是基于TSCPM预测块的统计模型去设计的。3)更多的实验结果证明了该方法的性能和效率,包括在低比特率编码场景和模式使用中的性能。与其他现有的跨分量预测增强工作不同,本文提出的PMC模式是根据现有的TSCPM线性模型是我重用和改革,因此计算复杂度非常低。目前AVS3标准已经采纳了PMC模式。
色度帧内预测模式
亮度通道包含了主要的结构信息,而色度通道相对来说就比较平均。一般来说,人眼对结构类细腻更为敏感,因此亮度通道会被预测地更为精细。亮度通道的帧内模式有66种,可以捕捉到更多多样化的纹理方向信息。相反,色度块的帧内预测模式只有DC、planar、水平竖直、DM和三种CCLM模式(AVS3中是TSCMP模式)。其中,DM模式是基于“色度编码的纹理方向与亮度编码相似”的假设,从而使亮度帧内模式在色度通道中被重用。因此DM模式相当于是在模式级别祛除了冗余,节省了表达模式flag的编码比特数。
TSCPM模式意图消除亮色度之间信号级别的冗余,TSCPM使得色度块可以从重建亮度像素块中线性地预测出信号。对于YUV420格式,参考的亮度样本需要降采样至于色度样本的尺寸对齐。线性预测需要的参数α和β不是显示传递给解码端的,而是通过重建亮度-色度像素对传递的。TSCPM的工作流程图图如3所示。TSCPM跟CCLM的区别主要在于线性变换和亮度重建像素下采样的顺序上,CCLM方案中,线性变换应用于下采样后的亮度重建像素,而在TSCPM中,首先对亮度重建像素进行线性变换,然后再对预测的色度像素进行下采样。此外,根据邻域像素是否可用的情况,TSCPM也分为三种模式,即TSCPM-LT(左方和上方的像素都可用)、TSCPM-L(只有左方像素可用)和TSCPM-T(只有上方像素可用)。
为了促进CCLM和TSCPM可以在软硬件上的实现,线性模型的推导过程被简化[3],大大减小了计算复杂度。具体来说就是用固定位置上最多四个邻近亮色度像素样本对去计算线性模型的参数。四个像素对根据亮度像素大小被分成了最大的两和最小的两组,最大的两组用和表示,最小的两组用和表示。然后线性模型的参数α和β就可以通过公式(1)和(2)表示。
提出的PMC模式
与TSCPM利用colocated亮度重建块去预测色度块不同,我们提出的方法利用重建信号作为亮度信号和任意一个色度信号去预测第三通道,统摄设计了双预测路线和多种加权参数集,是我们工作[15]的延伸。
文献[13]和[14]已经探索过了类似的防范,不过他们的计算复杂度非常高,尤其是在解码端,推导预测模型的过程非常复杂,大大阻碍(impede)了相关技术的实际应用。我们提出的PMC模式可以用相当小的复杂度与现有的TSCPM模式无缝协作(seamlessly collaborating with)。
PMC模型的建立
聚焦于使信号预测地更准确,我们提出用重建亮度像素块和的重建像素块一起预测的重建像素,如公式(3)所示,其中f表示亮度下采样操作,下采样滤波器与TSCPM中一致。A、B和γ表示模型参数。
仿照TSCPM预测色度下像素的方式(公式(4)和(5)),考虑到计算复杂度,我们重用了TSCPM的运算逻辑,将TSCPM的模型参数做一个加权,提出的PMC模式的A和B分别通过公式(6)和(7)计算,最终预测出的第三通道的通过公式(8)计算。
为了得到比较合适的权重参数,再次利用LSR方法去尽可能缩小预测像素与原始像素的差距,如公式(9)所示,其中N是色度样本综述,i是样本index。
利用TSCPM模式的色度块去训练我们PMC模型的参数,其中(wherein)的训练数据(TSCPM的预测信号、重建信号等)都是从解码端直接获取。我们假设TSCPM对的预测信号与实际的信号非常接近并强制μ为1,然后三个序列BasketballPass, BlowingBubbles, BQSquare中统计的分布,如图4和图5所示。为了更好地展示,我们排除了(0,0)点,因为这个点表示TSCPM预测的像素与原始像素一致,不能用来训练我们的参数。可以看出一些峰值(-1,1),(-1/2, 1/2), (1,1),从而激励我们设计显著的权重参数。
PMC模式设计
我们设计的双模式:既可以用亮度像素和Cb去预测Cr,也可以用亮度和Cr去预测Cb。使用分布图中概率最高的两组参权重数(-1,1)和(-1/2, 1/2),从图4和图5的分布图上来看,两个模式下的分布非常相似,因此这两种权重参数可以应用于两种模式。
PMC模式与TSCPM的三种模式对应,模式对应的编码标志位如表1所示,其中从0开始算索引位置4的位置上记录着使用PMC模式或者是TSCPM模式,如果是PMC模式,则索引位置5进一步表示使用的是双模式中的哪一种(0表示用亮度和Cb预测Cr,1表示用亮度和Cr预测Cb),最后一位表示使用的权重参数集,如表2所示。使用哪一种参数和模式由编码器中的RDO决定。
在预测第三通道的色度像素的时候,这个第三通道与亮度像素之间的相关性可能会比较低,这时候第二通道色度重建像素去补偿预测失误。因此,这时大概率第二通道像素时是有残差的,为节省码率我们直接推断出第二通道块的CBF为1,而不是显式地标记这个标志。
PMC的工作流程图如图6所示,对第二通道的预测与TSCPM相同,对第三通道的预测主要分为两步,第一步对亮度重建像素块进行线性变换,变换的参数由TSCPM的参数得到,如公式(6)和(7)所示。随后,对线性变换的结果进行下采样操作,最终第三通道的预测结果由亮度下采样结果和第二通道的重建像素得到,根据权重参数集的不同,最终的预测像素可以由公式(10)和(11)所示。
实验结果
性能评估
实验在AVS3标准的参考软件HPM6.0上做实验,用AVS3的通测条件[17]测试摄像头序列和SCC序列,用BD-rate[4]去评估性能。测试在RA和AO上都进行了测试,分成一般QP集合{27.32,38.45}高QP集{38,45,53,62}进行测试。
表3是PMC模式在一般QP集合、自然场景下的测试结果,RA配置下PMC 模式带来了0.32%,1.60%和2.39%的性能,AI配置下的性能提升是0.10%,1.74%和1.94%。PMC模式带来了色度上12次额外的RDO,使得编码时间增加了2%~4%,对解码时间的影响可以忽略不计。在低码率情况下,如表4所示,PMC在色度上可以带来4.67%和4.00%的性能提升,在Crew序列上提升最大(1.36%,15.58%和4.55%的性能提升)。
在SCC序列上的结果如表5所示,IBC是打开的,测试序列有TGM、MC和游戏。PMC在TGM序列的AI配置下取得的性能增益是0.91%,2.24%和2.82%,在RA配置下的性能增益是1.10%,1.98%和2.31%。PMC模式已经被应用在了AVS3标准中[18]。
为了证明PMC的有效性,在解码端统计了PMC的模式命中率,如图7所示。DM占最大比例最大,平均56.1%的色度编码块从分配的luma编码块继承内预测模式。所提出的PMC是第二种常用的模式,其中近四分之一的色度编码块最终用PMC模式进行编码。
讨论
PMC模式在硬件实现中存在延迟,因为第三个通道需要等待亮度和第二色度通道的重建像素。在解码端,跨分量预测也存在三步,解码残差、预测和重建。残差解析这个过程三个通道可以直接从解析、逆变换开始并行处理,但是,跨分量预测时并行会被打断,因为需要等到其他通道的重建像素。值得一提的是,在一个编码块内的预测和重建是像素化的操作,它支持并行计算。因此,所提出的PMC所引入的解码延迟对于硬件设计是可接受的。
减小同于是压缩的核心。跨分量预测的有效性表明它可以有效地消除通道之间的冗余。在计算复杂度的限制下,我们已经研究除了很多中预测路线和线性模型去提升跨分量预测性能,但仍旧有空间。1)轻量级非线性预测模型非常适合于跨分量预测,以更好地适应多样化的视频内容;2)比起直接遍历不同的跨分量预测解决方案,如何利用一些先验只是去选择一个最佳的预测方案也很指的研究;3)非邻近的参考像素可能会与当前块有更多的相似性,如果未来芯片资源(on-chip resources)足够这方面还值得探究。
参考文献
论文阅读:Prediction With Multicross Component forFuture Video Coding相关推荐
- 论文阅读《Representation learning with contrastive predictive coding 》(CPC)对比预测编码
论文地址:Representation Learning with Contrastive Predictive Coding 目录 一.Background(背景) 二.Motivation and ...
- 论文阅读笔记 Sparse Representation-Based Intra Prediction for Lossless/Near Lossless Video Coding
摘要 基于稀疏表征的帧内预测SRIP.在HEVC中有35种角度预测模式AIP,用最相似的相邻像素去表示当前待编码像素.为了编码与解码的一致,角度预测模式的参数要传到解码端,为了进一步提高编码效率,再传 ...
- 论文阅读 | Asymmetric Bilateral Motion Estimation for Video Frame Interpolation
前言:ABME发表在ICCV2021,也是一篇基于光流做插帧的文章 论文地址:[here] 代码:[here] Asymmetric Bilateral Motion Estimation for V ...
- 论文阅读 (76):Anomaly Detection in Video Sequence with Appearance-Motion Correspondence
文章目录 1 概述 1.1 题目 1.2 摘要 1.3 代码 1.4 引用 2 方法 2.1 初始模块 (Inception module) 2.2 外观卷积自编码器 (Conv-AE) 2.3 动作 ...
- 论文阅读 | Optimizing Video Prediction via Video Frame Interpolation
前言:CVPR2022利用视频插帧做视频预测的文章,用到的是优化的思想,不用训练网络 论文地址:[here] Optimizing Video Prediction via Video Frame I ...
- 论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》
论文阅读--<Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLA ...
- CVPR2019|Depth-Aware Video Frame Interpolation【论文阅读笔记】
CVPR2019|Depth-Aware Video Frame Interpolation[论文阅读笔记] 作者 相关链接 1.前言 2.介绍 3.算法 4.实验 作者 Wenbo Bao, Wei ...
- 【论文阅读】Rethinking Spatiotemporal Feature Learning For Video Understanding
[论文阅读]Rethinking Spatiotemporal Feature Learning For Video Understanding 这是一篇google的论文,它和之前介绍的一篇face ...
- 论文阅读笔记——A deep tree-based model for software defect prediction
本论文相关内容 论文下载地址--Web Of Science 论文中文翻译--A deep tree-based model for software defect prediction 论文阅读笔记 ...
最新文章
- python自动办公 pdf_Python办公自动化|批量合并PDF,拿来就用
- python 3.10 新增 switch-case 简介
- oracle实时监控触发邮件,利用EasySQLMAIL实现数据库订单监控和邮件发送
- Meteor工作目录的划分
- spring mvc学习(35):restful的put
- python-迭代器和生成器
- 【AC军团周报(第一周)第一篇】线段树从入门到入土【1】
- !学习笔记:前端测试 、前端调试、console 等
- 迅捷屏幕录像工具录制视频使用方法
- 读写卡测试程序VFP源代码
- 家谱排版制作软件怎么三步成谱
- 大学英语综合教程三 Unit 1 课文内容英译中 中英翻译
- CUBE+STM32F103 入门
- python第一行输入整数n、然后输入n行 每行三个字符串_B站2019秋招编程题思路解析[题目要素过多]...
- 计算机的虚拟接口,怎样设置计算机的虚拟目录和虚拟端口
- [资源帖]SIGGRAPH2016 下载地址
- python获取字符串首字母_Python中用startswith()函数判断字符串开头的教程
- 凶猛现金贷背后的欲望深渊:女子网上撸81只猫,欠下70万元债
- 基于高可用配置的RabbitMQ集群实践
- 拼多多店铺采集如何采集?【爬虫技术】