分析CVPR 2019论文关键词，我看到了计算机视觉的最新趋势

作者 | Priya Dwivedi

编译 | ronghuaiyang

来源 | AI公园（ ID: AI_Paradise )

【导读】我从 CVPR 中选取已被录用的论文进行分析，了解研究的主要领域和论文题目中的常见关键词。这可以提供研究进展的一个迹象。

用数据做一些很酷的事情！

2019 年 IEEE 计算机视觉与模式识别大会( CVPR )于今年 6 月 16 日至 20 日举行。CVPR 是计算机视觉领域世界三大学术会议之一(与 ICCV 和 ECCV 并列)。今年共收到 1300 篇论文，录取率达到创纪录的 5165 篇( 25.2 %)。

CVPR 带来了计算机视觉领域的顶尖人才，每年都有许多令人印象深刻的论文。

我从 CVPR 中选取已被录用的论文进行分析，了解研究的主要领域和论文题目中的常见关键词。这可以提供研究进展的一个迹象。

底层数据和代码可以在我的Github：https://github.com/priya-dwivedi/DeepLearning/blob/master/cvpr2019/CVPR2019_stats.ipynb上找到。

CVPR为每篇论文指定一个主要的主题区域。按学科类别划分的获接纳论文的细目如下：

不出所料，大多数研究都集中在深度学习(现在还不是所有的都是深度学习！)、检测和分类以及面部/手势/姿势。这种分解是非常普遍的，并不能提供很好的见解。所以接下来我从被接受的论文中提取出所有的单词，并使用计数器来计算它们的频率。最常见的 25 个关键词如下：

现在这个更有趣了。最流行的研究领域是检测、分割、3D和对抗性训练。这也表明了对无监督学习方法的研究越来越多。

最后，我还绘制了单词云图。

你可以使用我的Github按主题提取排在前面的论文，如下所示：

研究“人脸”的论文

在接下来的博客中，我从研究的关键领域中选择了 5 篇有趣的论文。请注意，我挑选了一些最吸引我的论文。

1. Learning the Depths of Moving People by Watching Frozen People：https://arxiv.org/abs/1904.11111

人类的视觉系统有一种非凡的能力，从它的二维投影来理解我们的三维世界。即使在有多个运动物体的复杂环境中，人们也能够对物体的几何形状和深度顺序保持一个可行的解释。在过去的几年里，利用相机图像进行深度估计已经做了很多工作，但是在许多情况下，鲁棒重建仍然是困难的。当摄像机和场景中的物体都在自由移动时，就会出现一个特别具有挑战性的情况。这混淆了基于三角划分的传统 3D 重建算法。

本文通过在摄像机和被摄对象自由移动的场景中建立深度学习模型来解决这一问题。

为了创建这样一个模型，我们需要通过移动摄像机捕捉到的自然场景的视频序列，以及每个图像的精确深度图。创建这样一个数据集将是一个挑战。为了克服这个问题，这篇论文非常创新地使用了一个现有的数据集——YouTube 视频，其中人们通过冻结在各种各样的自然姿势来模仿人体模型，同时手持摄像机在场景中漫游。由于场景是静止的，只有相机在移动，因此可以使用三角测量技术构建精确的深度图。这篇论文读起来很有趣。它解决了一个复杂的问题，并且在为它创建数据集方面非常有创意。

经过训练的模型在带有移动摄像头和人的互联网视频剪辑上的表现比以往任何研究都要好得多。见下图：

论文中的模型对比

2. BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames：https://arxiv.org/abs/1903.11779

我看了几篇关于视频物体分割(VOS)的论文。这是在视频中分割物体的任务，在第一帧中提供一个注释。这在视频理解中得到了应用，并在过去的一年里进行了大量的研究。

视频中物体的位置和外观会随着帧与帧之间的变化而发生显著的变化，本文发现使用不同的帧进行标注会显著改变性能。

BubbleNets 迭代地比较和交换相邻的视频帧，直到预测性能最大的帧排名最高，然后选择该帧供用户注释并用于视频物体分割。

BubbleNet第一帧的选择

模型的视频描述在 youtube 上共享，源代码在 Github 上开源。

使用 BubbleNets 模型预测两帧之间的相对性能差异。相对性能是通过结合区域相似性和轮廓精度来衡量的。

输入2帧比较，3帧参考。然后它通过 ResNet50 和完全连接的层来输出一个数字 f，表示两帧的比较。为了执行冒泡排序，我们从前两帧开始比较它们。如果 BubbleNet 预测第1帧的性能优于第 2 帧，则交换帧的顺序，并将下一帧与目前最好的帧进行比较。在处理完整个视频序列后，最佳帧仍然存在。下图显示了冒泡排序的 BubbleNets 体系结构和流程。

总的来说，作者表明，在不改变底层分割算法的情况下，改变注释帧的选择方式会使 DAVIS benchmark data set 的性能提高11%。

Bubblenets architecture

3. 3D Hand Shape and Pose Estimation from a Single RGB Image：https://arxiv.org/pdf/1903.00812.pdf

手的三维形状和姿态估计是近年来一个非常活跃的研究领域。这在 VR 和机器人领域都有应用。本文使用单目 RGB 图像创建一个三维手部姿态和环绕手部的三维网格，如下图所示。

从单张图像得到3D手网格

本文利用 CNNs 图重建手部三维网格。为了训练网络，作者创建了一个包含 ground truth 三维网格和三维姿态的大规模合成数据集。在真实的 RGB 图像上手工标注 ground truth 3D 手网格是非常费力和耗时的。然而，基于合成数据集的模型与实际数据集之间的区域差距导致模型的估计结果往往不尽人意。为了解决这一问题，作者提出了一种新的弱监督方法，利用深度图作为三维网格生成的弱监督，因为在采集真实世界的训练数据时，深度图可以很容易地被RGB-D 摄像机捕获。本文在数据集、训练过程等方面做了详细的阐述。如果这是你感兴趣的领域，请通读一遍。

对我来说，一个有趣的学习是 CNN 用于网格生成的图的架构。这个网络的输入是来自 RGB 图像的一个潜在向量。它通过两个完全连接的层，以粗略图的形式输出 80x64 个特征。然后，它通过层层向上采样和 CNNs 图来输出更丰富的细节，最终输出 1280 个顶点。

3D手网络模型结构

4. Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection：http://openaccess.thecvf.com/content_CVPR_2019/papers/Xu_Reasoning-RCNN_Unifying_Adaptive_Global_Reasoning_Into_Large-Scale_Object_Detection_CVPR_2019_paper.pdf

随着计算机视觉的广泛应用，目标检测得到了广泛的应用。Faster RCNN 是一种常用的物体检测模型。然而，当检测类的数量小于 100 时，物体检测是最成功的。这篇文章针对具有数千个类别的大规模物体检测问题，提出了一种基于长尾数据分布、重遮挡和类模糊的目标检测方法。

Reasoning-RCNN 通过构建一个知识图谱来实现这一点，该图对人类常识进行编码。什么是知识图谱？知识图编码物体之间的信息，如空间关系( on、near )、主谓宾关系(如 Drive、run )以及属性相似性(如颜色、大小、材质)。如下图所示，具有视觉关系的类别彼此之间距离更近。

知识图谱

在架构方面，它在标准的物体检测器(如 Faster RCNN )之上堆叠了一个推理框架。通过收集分类器的权值，生成所有类别的全局语义池，并将其输入自适应全局推理模块。增强的类别上下文(即，推理模块的输出)通过软映射机制映射回区域 proposal 。最后，利用每个区域的增强特征以端到端方式提高分类和定位的性能。下图显示了模型体系结构。

该模型在 3 个主要数据集上进行训练和评估——Visual Gnome (3000个类别)、ADE ( 445个类别)和 COCO ( 80 个类别)。该模型能够在 Visual Gnome上获得 16% 的提升，在 ADE 上获得37%的提升，在 COCO 上获得15%的提升。

5. Deep Learning for Zero Shot Face Anti-Spoofing：http://arxiv.org/abs/1904.02860

近年来，人脸检测技术取得了很大的进步，人脸检测与识别系统在许多领域得到了广泛的应用。事实上，我们可以用8行代码建立一个系统来检测人脸、识别人脸并理解他们的情绪。

然而，也有风险，人脸检测被欺骗，以获得非法访问。人脸反欺诈是为了防止人脸识别系统将假人脸识别为真实用户而设计的。在开发先进的人脸反欺诈方法的同时，新型的欺诈攻击也在不断产生，并对现有的系统构成威胁。文章介绍了一种检测未知欺诈攻击的概念，即零样本人脸反欺诈。以前的人脸反欺诈只研究了 1- 2 种类型的欺诈攻击，比如打印/重放，这限制了对这个问题的理解。该工作在 13 种类型的欺骗攻击(包括打印、重放、3D 蒙版等)中广泛地研究了人脸反欺诈问题。下图显示了不同类型的欺诈攻击。

人脸欺骗可以包括打印(打印人脸照片)、重放视频、3D 蒙版、眼睛裁剪人脸照片、化妆、透明蒙版等多种形式。本文提出了一种利用深度树网络从无监督的欺诈图片中学习语义嵌入的方法。嵌入在这里可以模拟像人类凝视这样的东西。它创建一组欺诈图像的数据集来学习这些嵌入。在测试过程中，将未知攻击投射到嵌入中，寻找最接近的属性进行欺诈检测。

阅读论文了解更多关于深树网络模型体系结构和训练过程的细节。本文能够创建嵌入，用各种类型的欺骗分离出活的人脸(真实的脸)。参见下面的 t-SNE 图：

这篇论文很棒。是有希望解决实际问题的的研究。

总结

看到计算机视觉方面的所有最新研究是非常有趣的。这里分享的5篇论文只是冰山一角。我希望你能使用我的 Github 对论文进行分类，并选择你感兴趣的论文。

英文原文：

https://towardsdatascience.com/latest-computer-vision-trends-from-cvpr-2019-c07806dd570b

原文链接：

https://mp.weixin.qq.com/s/yeWXl2k_7gxt2fzhwnQsqQ

(*本文为 AI科技大本营转载文章，转载请联系作者)

◆

福利时刻

◆

入群参与每周抽奖~

扫码添加小助手，回复：大会，加入福利群，参与抽奖送礼！

AI ProCon 2019 邀请到了亚马逊首席科学家@李沐，在大会的前一天（9.5）亲授「深度学习实训营」，通过动手实操，帮助开发者全面了解深度学习的基础知识和开发技巧。还有 9大技术论坛、60+主题分享，百余家企业、千余名开发者共同相约 2019 AI ProCon！距离5折优惠票结束还有4天！

分析CVPR 2019论文关键词，我看到了计算机视觉的最新趋势 | 附代码相关推荐

首发 | 13篇京东CVPR 2019论文！你值得一读~ 技术头条
点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」全日程揭晓,请扫码咨询 ↑↑↑ 编者按:计算机视觉和模式识别大会 CVPR(Conference on Computer Vision ...
首发 | 旷视14篇CVPR 2019论文，都有哪些亮点？
译者 | Linstancy 责编 | Jane 出品 | AI科技大本营(公众号id:rgznai100) 回顾 CVPR 2018 ,旷视科技有 8 篇论文被收录,如高效的移动端卷积神经网络 Sh ...
CVPR 2019 论文大盘点-人脸技术篇
点击我爱计算机视觉标星,更快获取CVML新技术 CV君今天盘点了 CVPR 2019 所有人脸相关论文,总计51篇,其中研究人脸重建与识别的论文最多,人脸识别中新Loss的设计有好几篇,人脸表情分析也 ...
CVPR 2019 论文和开源项目合集(Papers with Code)
CVPR 2019 论文开源项目合集传送门:CVPR 2020 论文开源项目合集附:530 篇 CVPR 2019 论文代码链接目标检测目标跟踪语义分割实例分割 GAN 人脸检测人体姿态 ...
CVPR 2019 论文大盘点-目标跟踪篇
点击我爱计算机视觉标星,更快获取CVML新技术跟踪在计算机视觉里有很广泛的内涵,本文所指的跟踪为通用目标跟踪,不包括比如人脸特征点跟踪.视线跟踪等特定领域. 本文总结了 19 篇相关论文,列出了代码 ...
CVPR 2019 论文大盘点—人体姿态篇
点击我爱计算机视觉标星,更快获取CVML新技术 CV君盘点了CVPR 2019 中有关人体姿态的论文,其中研究 3D人体姿态估计的论文最多,有 11 篇,研究 2D 姿态估计的 7 篇,姿态迁移 2 ...
CVPR 2019 论文大盘点-超分辨率篇
点击我爱计算机视觉标星,更快获取CVML新技术今天盘点了 CVPR 2019 所有超分辨率相关论文,总计16篇,其中多篇论文已经吸引了大量关注,比如旷视的Meta-SR.能够应对模糊降质的DPSR. ...
17篇论文入选CVPR 2019，百度AI都在关注什么？（附论文地址）
整理 | 阿司匹林出品 | AI科技大本营(公众号id:rgznai100) 计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVP ...
百度AI 17篇 CVPR 2019 论文介绍（附下载）
本文转载自AI科技大本营. 整理 | 阿司匹林出品 | AI科技大本营(公众号id:rgznai100) 计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视 ...
全球计算机视觉顶会CVPR 2019论文出炉：腾讯优图25篇论文入选
全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开 ...

分析CVPR 2019论文关键词，我看到了计算机视觉的最新趋势 | 附代码

总结

推荐阅读

从不温不火到炙手可热：语音识别技术简史

ImageNet错误率小于4%，数据量依然不够，N-Shot Learning或是终极解决之道？

NLP机器翻译深度学习实战课程基础 | 深度应用

重磅！全球首个可视化联邦学习产品与联邦pipeline生产服务上线

用Python的算法工程师们，编码问题搞透彻了吗？

Python冷知识，不一样的技巧带给你不一样的乐趣

90 后程序员健康现状：掉头发、油腻、腰椎间盘突出……| 程序员有话说

真相了！AI 程序员：我们根本没有 80w 年薪好么？

CSDN & 火星财经, 联手发起Libra超级节点竞选！

干货！学霸用12个决策模型告诉你，如何判断你到底需不需要区块链！

分析CVPR 2019论文关键词，我看到了计算机视觉的最新趋势 | 附代码相关推荐

最新文章

热门文章