点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

收录 180 篇文献的首个深度学习图像合成技术综述文章。

图像合成 (image composition) 是指把一张图片的前景剪切下来,粘贴到另外一张背景图片上,得到一张合成图。广义来讲,把来自不同图片的多个视觉元素嫁接到同一张图片上,都属于图像合成的范畴。

图像合成有着广泛应用,比如人像换背景、虚拟社交、艺术创作、广告图片自动生成等等。为了得到理想的图像,图像合成和图像生成 (image generation) 往往会配合使用,图像生成负责从无到有,图像合成负责从有到优。图像生成的可控性有限,即使提供了大量的条件信息,也未必能生成完全符合预期的图片。从这个角度来说,图像合成更擅长精细控制,对完全符合预期的视觉元素进行拼接,得到真实合理的图片。相比较其重大的应用价值,图像合成并没有受到足够的关注。

本论文是第一篇系统性梳理图像合成技术的综述,共收录 180 篇文献,总结了图像合成需要解决的子问题以及每个子问题涉及的研究子方向和代表性方法,总结了各个研究子方向的数据库、评测标准、传统方法、深度学习方法。因为合成图中的前景和背景原本都是真实的,组成一个整体之后由于前景和背景之间的不一致性变得不真实,图像合成旨在解决前景和背景之间的不一致性,让合成图再次变得真实,因此综述取名叫 making images real again。

  • arXiv 链接:https://arxiv.org/pdf/2106.14490.pdf

  • GitHub 链接:https://github.com/bcmi/Awesome-Image-Composition

上图展示了得到一张合成图的过程,从一张图片上把前景用分割算法或者抠图算法剪切下来,粘贴到另外一张背景图片上,得到一张合成图。因此图像合成需要建立在分割 (segmentation) 算法或者抠图 (matting) 算法相对成熟的基础上,可以看成是分割算法或者抠图算法的下游任务。通过剪切复制得到的合成图可能会有诸多问题,影响合成图的真实程度和图片质量。

这些问题可以归结为合成图中前景和背景之间的不一致性 (inconsistency),进一步可分成外观不一致性 (appearance inconsistency) 和几何不一致性 (geometry inconsistency)。

外观不一致性和几何不一致性又可以细分成很多子问题。每个子问题都非常有挑战性,都具有独立的研究价值,所以从图像合成任务衍生出了很多子方向,每个子方向重点研究一个子问题。

图像合成任务看似简洁,实则包罗万象,涉及的技术纷繁复杂。在图像合成领域,之前有些工作只关注一个子问题,有些工作则同时关注多个子问题,任务设定各不相同,给人一种支离破碎的感觉。该综述试图理清各个研究工作之间的区别和联系,还原出一副较为完整的图景。有了完整的图景,在图像合成的过程中如果遇到具体问题,就能够很方便地找到对应的解决方案。接下来分别介绍外观不一致性和几何不一致性。

外观不一致性包括但不局限于:1)前景和背景之间不自然的边界; 2) 前景和背景不匹配的颜色光照信息;3) 缺失或不合理的前景阴影或反光。

关于第一个子问题,前景物体一般通过分割算法或者抠图算法获得,但是边缘往往不能被清晰完整地分离出来。如果把边缘不完美的前景粘贴到背景上,前景和背景之间就会存在不自然的边界。为了解决第一个子问题,图像融合 (image blending) 旨在消除不自然边界,让前景和背景无缝衔接。

关于第二个子问题,因为前景和背景可能是在不同的拍摄环境下 (天气、季节、时间、照相机参数) 拍摄的,得到的合成图就会看起来不和谐,比如前景是在白天拍摄的,背景是在夜间拍摄的。为了解决第二个子问题,图像和谐化 (image harmonization) 旨在调整前景的颜色光照信息,使其和背景看起来更和谐。

关于第三个子问题,当把前景粘贴到背景上,前景可能会对背景造成影响,比如阴影或者反光。为了解决第三个子问题,阴影或反光生成方法可以根据前景和背景信息为前景物体生成合理的阴影或者反光。因为反光生成的应用场景有限,相应的研究工作特别少,所以在本论文中我们侧重于前景物体的阴影生成。

几何不一致性包括但不局限于:1) 前景物体过大或者过小;2) 前景物体没有受力支撑,比如悬浮在空中;3) 前景物体出现在语义不合适的地方,比如船出现在内陆上; 4) 前景和周围物体存在不合理的遮挡关系;5)前景和背景的透视角度不一致。

总结起来就是前景物体的大小、位置、形状不合理。物体摆放 (object placement) 和空间形变 (spatial transformation) 旨在为前景寻找合理的大小、位置、形状,从而避免上面提到的诸多不合理因素。物体摆放一般来说主要是对前景物体进行平移和缩放,而空间形变则会涉及到相对复杂的几何形变,比如仿射变换或透视变换。

在本论文中,为了方便描述,我们用物体摆放指代任意几何形变。之前物体摆放的研究工作大多通过寻找合适的位置避免不合理的遮挡,也有少数工作探索当不合理遮挡发生时如何对前景进行调整,比如根据估计的深度信息把前景的被遮挡区域擦除。

上图展示了四个研究方向:物体摆放 (object placement), 图像融合 (image blending), 图像和谐化 (image harmonization), 阴影生成 (shadow generation)。模型输入原始合成图和前景掩码,输出调整之后更加真实自然的合成图。

之前的研究工作有些侧重于解决一个子问题,有些则同时解决多个子问题。为了方便寻找每个子方向的系列方法,比较不同工作的研究范围,我们在下表中列举了五个图像合成中的子问题: 边界 (boundary),外观(appearance, 主要指前景的颜色光照),阴影 (shadow), 几何信息 (geometry, 主要指大小位置形状),遮挡 (occlusion, 主要指前景被遮挡区域),并且将之前的研究工作对号入座。

从下表可以看出,大多数研究工作主要解决一个子问题,解决外观和几何的工作相对较多。其次有少量工作解决两个子问题,只有极少数工作解决三个及以上的子问题。

在解决了外观不一致性和几何不一致性之后,合成图看起来更加真实自然。但是有些时候,我们会对合成图提出更高的要求,不仅要求合理,而且要求美观。比如把一个花瓶放在另外一张背景图片的桌子上有无数种合理的大小和位置。然而考虑到构图规则和美学准则,只有部分位置和大小可以让整张图片看起来较为美观。

在这种情况下,我们需要对一张合成图进行美学评估。美学评估包含很多因素,比如光线、颜色和谐程度、颜色鲜艳程度、景深、三分法、对称性等等。上文介绍的图像和谐化可以提高整张图片的和谐程度,因此也可以被认为提高了图片的美学质量。在本论文中,我们重点关注和物体摆放直接相关的美学评估,即构图相关的美学评估。构图相关的美学评估主要考虑图片中视觉元素的布局,和前景物体的位置大小直接相关。

虽然图像合成有着非常广阔的应用前景,但是该技术也有可能被用来作恶,比如传播虚假消息、制作伪证等等,对人们的生活产生负面的影响。不仅是图像合成,图像生成也有同样的问题。所以我们在研究图像合成技术的同时,也要研究它的反面,即鉴别合成图。

现有一些图像伪造检测 (image manipulation detection) 的方法,利用前景和背景不同的噪音特征、照相机参数、颜色光照信息等线索鉴别一张图片是否是伪造的。伪造图像包含的范围很广,比如图像拼接 (image splicing)、图像填充、图像增强等等。其中图像拼接检测 (image splicing detection) 和图像合成最为契合。图像拼接检测可以识别出合成图,而且能成功定位到合成图中粘贴的前景物体。图像合成和图像拼接检测之间相互博弈,图像合成旨在让合成图片和真实图片不可区分,而图像拼接检测旨在把合成图片和真实图片区分开来。

尽管之前有不少图像合成的研究工作,图像合成领域也取得了很大的进步,但是该领域依然存在很多严峻的问题:

1)大多数工作只考虑把一个前景物体粘贴到另外一张背景图片上,并且假设前景物体是完整的。然而在现实应用中往往需要把多个前景物体合成在同一张背景图片上,并且前景物体可能残缺不全。因此我们需要改进图像合成算法使其能够适应复杂的应用场景。

2) 图像合成任务包含很多子问题,并且每个子问题都非常有挑战性,都可以开辟一个独立的研究子方向。但这种研究方式让图像合成领域有很强的割裂感,没有一个系统可以统一解决所有的子问题,给图像合成系统在真实应用场景中的部署带来了困难。

3) 之前的图像合成工作非常零散,不成体系。由于 ground-truth 数据极难获取,评测又有很强的主观性,很多子领域没有统一的数据集,不同的方法不能直接比较,在一定程度上阻碍了图像合成技术的发展。所以迫切需要为各个子领域建立统一的数据集,公平比较,推动各个子领域的发展。

4) 现有大多数方法都是从图片到图片,也就是 2D->2D。但一个直观的想法是从合成图推测出完整的前景和背景的 3D 信息、场景的光照信息等,根据这些完整信息实现图像和谐化、前景物体阴影生成等功能。然而,基于现有技术从单张图片推测出所有信息是非常困难的,预测不准可能会适得其反。但是 2D->3D->2D 仍然是一条值得探索的路径,或许可以找到 2D->2D 和 2D->3D->2D 之间难度适中、性能最佳的中间地带。

综上所述,本论文的贡献有三点:1)据我们所知,这是首篇深度学习图像合成技术综述。2) 我们对图像合成任务中需要解决的子问题以及针对每个子问题的研究子方向做了系统的梳理和总结,呈现出图像合成领域较为完整的图景。3) 为了综述的完整性,我们还介绍了构图相关的美学评估和图像拼接检测。而且,我们在 GitHub 上总结了图像合成相关的论文、代码、数据库,欢迎下载使用。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

收录180篇文献,上海交大推出深度学习图像合成领域首篇综述相关推荐

  1. 百来篇关于机器学习和深度学习的资料

    编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文章的朋友能够学到更多. <Brief History of Machine Le ...

  2. 「每周论文推荐」 初入深度学习CV领域必读的几篇文章

    https://www.toutiao.com/a6718570271269192200/ 很多朋友都希望我们开通论文推荐和阅读板块,那就开吧,此专栏名为<每周论文推荐>.在这个专栏里,还 ...

  3. 【每周论文推荐】 初入深度学习CV领域必读的几篇文章

    很多朋友都希望我们开通论文推荐和阅读板块,那就开吧,此专栏名为<每周论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题 ...

  4. 深度学习的150多篇文章和10多个专栏推荐

    文章首发于微信公众号<有三AI> 创业第一天,有三AI扔出了深度学习的150多篇文章和10多个专栏 文/编辑 | 言有三 在这篇文章中,有三跟大家来聊一下有三AI和如何学习深度学习这件事儿 ...

  5. 深度学习论文阅读图像分类篇(三):VGGNet《Very Deep Convolutional Networks for Large-Scale Image Recognition》

    深度学习论文阅读图像分类篇(三):VGGNet<Very Deep Convolutional Networks for Large-Scale Image Recognition> Ab ...

  6. 近200篇机器学习&amp;深度学习资料分享(含各种文档,视频,源码等)

    转自:http://www.tuicool.com/articles/jUz2Y3b 编者按:本文收集了百来篇关于机器学习和深度学习的资料,含各种文档,视频,源码等.而且原文也会不定期的更新,望看到文 ...

  7. 深度学习论文阅读图像分类篇(五):ResNet《Deep Residual Learning for Image Recognition》

    深度学习论文阅读图像分类篇(五):ResNet<Deep Residual Learning for Image Recognition> Abstract 摘要 1. Introduct ...

  8. 一篇就够用了——深度学习Ubuntu16.04环境配置+Win10双系统

    一篇就够用了深度学习Ubuntu16.04环境配置 必看!此教程使用说明 [必备配置]基本环境配置 1.win10+ubuntu16.04双系统安装 2.ubuntu最重要的事--切换下载源 3.ub ...

  9. 大数据早报:原百度研究院院长林元庆宣布离职创业 比特采矿业巨头BitMain推出深度学习AI硬件(10.27)

    数据早知道,上乐投网看早报! 『百度』原百度研究院院长林元庆宣布离职创业 将投身AI领域 原百度深度学习实验室主任林元庆已经离职,接下来将在人工智能领域创业.据悉,林元庆在八月份便有离开的意向,十一之 ...

最新文章

  1. Redis学习笔记--Redis数据过期策略详解
  2. CodeForces - 1543D1 RPD and Rap Sheet (Easy Version)(异或+交互)
  3. How to install Aptana Studio 3.3.1 in Ubuntu 12.10 (Quantal Quetzal)
  4. 【算法】159题 Longest Substring with at Most Two Distinct Characters 最大的子串
  5. 神经网络入门之DNN(一)
  6. java thread detach_Java多线程小结
  7. CEO如何做好企业战略管理?
  8. 一篇文章搞懂数据仓库:元数据分类、元数据管理
  9. Matlab中配置vlfeat库
  10. resin服务器搭建
  11. 2018年迎春杯复赛入围名单(三年级)
  12. Vivo 监控系统演进之路
  13. mybatis mysql连接时区_MySQL时区的查看和设置
  14. 5.21 ticker的使用
  15. 永恒之蓝勒索漏洞复现
  16. vue 中面包屑带跳转的做法
  17. TCP报文( tcp dup ack 、TCP Retransmission)
  18. html5 鼠标滑动页面动画效果,鼠标滑动到当前页面触发动画效果
  19. 计量语言学软件Altmann-Fitter阿尔特曼拟合器的使用简介(更新中)
  20. SSH登录一条线理解前因后果

热门文章

  1. 无胁科技-TVD每日漏洞情报-2022-11-2
  2. 点云中的Minkowski卷积
  3. android4.0 壁纸 缩放,android动态壁纸缩放
  4. 大学生学什么能高薪就业?
  5. win7搭建虚拟pppoe服务器,Win7在桌面建立一个pppoe宽带自动连接器的方法
  6. PaperReading:《Rethinking Computer-aided Tuberculosis Diagnosis》
  7. Focusky的下载、安装、注册和使用(动画演示大师)
  8. 文献阅读(48)NIPS2017-Attention Is All You Need
  9. Android Studio中视图的inputType属性3-1
  10. WIN32_API函数大全