本文来自ICME2021论文《Visual Analysis Motivated Rate-Distortion Model for Image Coding》

本文针对VVC帧内编码提出了一个面向视觉分析的RD模型,该模型包括码率控制策略和失真度量模型。首先提出了针对机器的ROI(ROIM)来度量不同CTU在视觉分析中的重要性。然后提出了基于ROIM和局部纹理特征的CTU级码率分配模型。提出多尺度特征失真(multi-scale feature distortion  ,MSFD)来度量CU的失真。实验显示在同样视觉分析(例如图像分类、目标检测和语义分割)质量下本文方法可节省28.17%的码率。

深度学习算法在处理机器视觉任务时能达到很好的效果,例如对于图像分类问题ResNet-50的top-5准确率能达到97%,但输入图像往往是未压缩或压缩质量很高的。实验显示当图像编码码率较低时视觉分析效果会急剧下降。如Fig.1,当bpp为0.1时top-5准确率仅为68%。这个现象揭示了现有的编码算法在处理机器视觉认为时不够高效,尤其是低码率情况下。

本文为VVC帧内预测提出了面向视觉分析的RDO模型,整个模型框架如Fig.2所示。

码率分配策略

ROIM生成

VTM中码率分配的基本单元是CTU,为了保持一致本文的ROIM基本单元也是CTU。ROIM会生成每个CTU在视觉处理任务中的重要性。ROIM模型包括两个部分:Mi和Mc。Mi揭示了每个CTU的重要性,Mc相邻CTU的连通性。ROIM模型是基于预训练的RPN的,RPN会生成一系列bounding box(非极大抑制之前,NMS)称为B。第k个CTU的重要性计算方式如下:

S_C表示CTU集,函数f(A)表示区域A的像素数。

相邻CTU的连通性计算如下:

L(i,j)表示CTUi和CTUj相邻边的长度,A(i,j)表示CTUi和CTUj相邻边在bounding box中的长度,如Fig.3所示。

码率分配

在VTM中,CTU级码率分配是基于纹理信息的,对于第i个CTU目标码率计算如下,

基于视觉分析任务和局部纹理信息,本文提出新的码率分配方法,

QP限制

在VTM中QP估计过程和RDO过程相互独立,因此为了保持重建图像的一致性需要对CTU的QP进行限制,QP估计过程需要满足公式(6)和(7),

其中QP_pic是整帧图像的QP,QP_cu是已编码CTU的平均QP。但是QP估计带来的块效应会影响视觉分析任务,因此本文基于相邻CTU的连通性提出了新的QP限制策略,首先寻找CTUk来限制CTUi,

最终CTU的QP计算方式如公式(10),

RDO

本文提出了基于CNN进行特征提取的RDO模型。其中特征相似性的计算方式如下,

其中RecF和OriF分别代表从重建图像和原始图像中提取的特征。

失真度量

测试了4个CNN模型在语义分割任务上的特征失真,包括ResNet18、ResNet34、VGG-11和VGG-16(都不带最后的池化层和全连接层)。这些模型在ImageNet数据集上预训练,并从COCO-2014数据集上随机选择100幅图像验证模型速度和效果。效果用置信度为0.5时的mAP评价(mAP@50),速度以VGG-11为基准,结果如表1。最终选择VGG-11作为特征提取器。

多尺度特征失真

由于编码器进行块划分后会产生很多小块,这些小块很难提取出有效特征。为了解决在计算CU失真时缺少上下文信息的问题,本文利用多尺度窗口从已编码CU中提取一系列上下文信息。本方法利用左侧和上方重建像素作为参考。

Fig.4是多尺度特征失真MSFD框架。公式(11)中FDi是重建CU和原始CU特征的余弦距离。

多尺度窗口可以增加小尺寸CU的上下文信息,但是对于极小的块(如4x4)还是难以提取有效特征,所以对于长或宽小于16的块使用余弦距离的最大值来估计FD。但是这种近似处理会引入像素级失真,为了平衡重建区域质量在失真度量时加入MSE,

实验结果

视觉分析任务和数据集

为了验证本文方法的泛化性能,选择了3种视觉任务:图像分类、目标检测和语义分割。对于图像分类任务,从ImageNet数据集中选择1000个图像并使用VGG-19模型作为分类网络测试top-1和top-5准确率。对于目标检测,从VOC-2007中随机选择1000个图像,使用YOLOv3测试mAP@50。对于语义分割,从COCO-2014中随机选择1000个图像,使用mask RCNN并测试mAP@50。

配置和实验

实验平台为VTM10.1。QP={40,42,44,46}。配置为All intra。对于模型超参数,公式(5)中alpha=10000,Fig.4中∆d  =8,多尺度窗口设为3,权重wi分别为{4,2,1}。VTM10.1作为anchor。

实验分析

如Fig.5所示,本文方法在各种视觉处理任务中效果都更优。

BD-Rate结果如表2所示,其中计算BD-Rate时失真计算采用的是分类准确率和mAP@50。

感兴趣的请关注微信公众号Video Coding

ICME2021:基于机器视觉的RD模型相关推荐

  1. 基于机器视觉的移动消防机器人(二)--详细设计

    本文素材来源于北方民族大学 机电工程学院 作者:牟义达.黄瑞翔.李涛 指导老师:田国禾.张春涛 1.消防机器人的本体设计 根据消防机器人的功能特点,对探索者的零件加以分析,选择与功能向匹配的零部件进行 ...

  2. 基于机器视觉的表面缺陷检测方法研究进展(2022最新)

    参考文献:基于机器视觉的表面缺陷检测方法研究进展-赵朗月 声明 此文章仅为作者阅读学习记录,如有错误欢迎指正交流,如果对你有帮助还望点赞支持,谢谢! 文章目录 声明 摘要 1.传统图像处理方式 2.基 ...

  3. 基于机器视觉的多机械臂煤矸石分拣机器人系统研究

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 基于机器视觉的多机械臂煤矸石分拣机器人系统研究 王鹏1,2,曹现刚 ...

  4. 论文研究 | 基于机器视觉的 PCB 缺陷检测算法研究现状及展望

    前面分享了机器视觉在汽车行业与交通行业的应用,其实机器视觉在工业上的应用是最广泛也是最具挑战性的,其中PCB板缺陷检测一直是机器视觉待攻克的难题.印刷电路板(PCB)是电子零件的基板,需求量极大,承载 ...

  5. 基于机器视觉技术快速准确地分类优秀劣质大豆品种

    近年来以快速.准确地机器视觉为基础的技术替代人力检测农产品质量的技术受到了广泛关注. 在这项研究中,我们描述了联合多模式特征袋(JMBoF)分类框架的低等级表示,用于检查收获后干燥大豆种子的外观质量. ...

  6. 图像处理项目——基于机器视觉技术的人脸在线识别系统设计

    基于机器视觉技术的人脸在线识别系统设计 本设计研究人脸检测与识别技术,在基于机器视觉技术上,构建了一套人脸在线检测识别系统,系统将由以下几个部分构成:计算机图像预处理.数据收集和预处理. 人脸图像定位 ...

  7. 毕业设计 - 题目:基于机器视觉opencv的手势检测 手势识别 算法 - 深度学习 卷积神经网络 opencv python

    文章目录 1 简介 2 传统机器视觉的手势检测 2.1 轮廓检测法 2.2 算法结果 2.3 整体代码实现 2.3.1 算法流程 3 深度学习方法做手势识别 3.1 经典的卷积神经网络 3.2 YOL ...

  8. 《基于机器视觉的输电线路交叉点在线测量方法及技术方案》论文笔记

    <基于机器视觉的输电线路交叉点在线测量方法及技术方案>论文笔记 原文链接:On-line Measurement Method and Technical Scheme of Transm ...

  9. 【机器视觉】基于机器视觉的工业机器人定位系统;机器视觉技术在印刷包装行业中的应用

    建立了一个主动机器视觉定位系统,用于工业机器人对零件工位的精确定位. 采用基于区域的匹配和形状特征识别相结合的图像处理方法,该方法经过阈值和形状判据,识别出物体特征.经实验验证,该方法能够快速准确地得 ...

最新文章

  1. 删除 jar 的 asset_【unity游戏开发】SDK学习(1)-C#与jar交互
  2. 语音情感识别----语音特征集之eGeMAPS,ComParE,09IS,BoAW
  3. .net 下语音合成
  4. cf1553D. Backspace
  5. SpringBoot整合Shiro权限框架
  6. java cr_WildFly 10 CR 2发布– Java EE 7,Java 8,Hibernate 5,JavaScript支持热重载
  7. JAXB –新手的观点,第1部分
  8. perl mysql dml_MySQL Connector执行SQL语句的三种方式
  9. java定时关机源码_【Java】定时关机源码
  10. 定时器之多层级时间轮
  11. 【目标检测】VOC2007数据集介绍
  12. JAVA开发短信验证码系统
  13. 算法:买卖股票最佳时机(c++)
  14. 中小学计算机网络培训心得体会,计算机网络培训心得体会
  15. 城市代码(weather.com)[转]
  16. android陀螺仪手机垂直角度,Android设备中实现陀螺仪(Orientation Sensor)
  17. (转)Cognos Transformer IQD文件结构及规则
  18. 云原生周报 | 百度开源千万级CPS压测软件 dperf;BFE Server v1.5.0 发布
  19. 关于Scrum XP DevOps的学习
  20. grizzly2.2.23构建及源码

热门文章

  1. EXCEL如何合并单元格且保留全部内容
  2. 无线网卡在服务器上不能启用,解决无线网卡突然不能启用的问题(事件ID4294)...
  3. html5手机号码数据类型,报手机号码的四种格式,你是哪种性格?
  4. 每个初学JAVA者都应该搞懂的问题
  5. javaGUl编程设计(大学生项目)
  6. Swing入门级项目全程实录第7讲
  7. linux,windows 可执行文件(ELF、PE)
  8. 组装台式电脑如何重装系统图文教程
  9. 什么是多方计算multi-party computation (MPC)
  10. rabbitmq系列(三)消息幂等性处理