内容来源:ATYUN AI平台

改变美洲豹身上的斑点似乎是个很有趣的想法,而这个想法也并非天方夜谭。通过NVIDIA新的加速GPU深度学习技术,无论是图片还是视频,甚至是实体美洲豹,都能使其变成猫、老虎或狗,而且可以实时转变,即动作也与原先一致。

一变多(图片或视频)给游戏开发者和制片人带来诸多便利,比如效率更高、花费时间更少,一变多得到更多经验。这一技术也为无人驾驶技术带来灵感,即快捷地产生多样的培训数据来处理更复杂多变的道路状况。

精彩视频点击链接:豹变猫?实时场景转变?NVIDIA多模式图像转换技术都能实现

一变多

研究人员在12月的神经信息处理系统研讨会上,提出了他们先人一步的早期工作——图像转换,更广为人知的是叫法是NIPS。论文中所描述的方法是逐一工作,将一个图像或视频映射到另一个上。

近期发表的论文中提出的新技术是多模式的(multimodal),可同时将一个图像转换成许多图像。多模式图像转换是强大的NVIDIA研究团队的最新成果。

想象力的提升

就像NIPS的研究一样,多模式图像转换依赖于两种深度学习技术——无人监管学习和生成对抗网络(GANs),让机器更有想象力,比如让其想象一个阳光明媚的街道在暴风雨中或冬季时的景貌。

现在,研究人员不用将夏季的驾驶视频对应到一个冬季的例子上,而是可以创造出一组不同的冬季驾驶视频,雪景也可以多种多样。这种技术在一天中不同的时间和其他天气条件下,都是以同样的方式进行处理,在阴天里提供阳光,或者把夜晚变成黎明、下午或黄昏时刻。另外,该技术在训练用于自动驾驶汽车的深层神经网络方面非常有价值。

在游戏世界里,多模式图像转换可以让电影工作室更高效地创造新角色或新世界。艺术家们可以丢下乏味的任务,去创造更为丰富复杂的故事。

多模式的无人监管图像对图像转换框架,即MUNIT,通过内容与风格来区分图像。例如,在一张猫的照片中,猫的姿势就是内容,而品种则是风格,姿势是固定的。如果把一幅家猫的照片转换成美洲豹或狗,那么动物的位置必须保持一致。品种及物种是要进行区别的,比如短毛家猫、美洲豹或柯利牧羊犬。

缺少数据也没问题

这项研究是建立在一种擅于产生视觉数据的深度学习方法上的。一个GAN使用两个相互竞争的神经网络:其中一个用来生成图像,另一个评估生成的图像的真假。而当数据不足时,GANs特别实用。

通常情况下,图像转换需要相应的图像数据集,如柯利牧羊犬、拉布拉多或老虎的图像,它们的位置必须与最初要转换的猫的形象完全相同。这类数据极难找到,而MUNIT的优点是它并不需要这些数据也可以完成任务。

用MUNIT很容易为自动驾驶汽车生成训练数据,而且不需要从相同的角度捕捉相同的视频片段,只需要同样的视角,以及在相同位置记录的所有接近的车流和其他细节。此外,GANs使人们不再需要对每个图像或视频的内容进行标记,节省了大量的时间和人力。

本文转自ATYUN人工智能媒体平台,原文链接:豹变猫?实时场景转变?NVIDIA多模式图像转换技术都能实现

更多推荐

Alphabet设立专门投资AI初创的风投子公司Gradient

LSTM循环神经网络实例:教你处理LSTM神经网络序列预测问题

Python学习入门训练:使用Python完成你的第一个学习项目

欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com

豹变猫?实时场景转变?NVIDIA多模式图像转换技术都能实现相关推荐

  1. 英伟达新研究:“狗生猫,猫生万物”的多模态无监督图像转换

    林鳞 编译整理 量子位 出品 | 公众号 QbitAI 英伟达最近的一项研究看起来有点神奇. 一张普通的猫咪图像,可以被转换成一只老虎.一头狮子或一只美洲豹.  还是一张普通的猫咪图,还能被转换成 ...

  2. 【clickhouse】ClickHouse 在实时场景的应用和优化-字节跳动技术沙龙第6期 笔记

    文章目录 1.概述 2.早期 2. 运维经验 1.概述 2.早期

  3. ABCNet 精读:使用自适应贝塞尔曲线网络进行进行实时场景文本定位 OCR 文本定位 文本检测 CVPR

    文章目录 ABCNet 导读:使用自适应贝塞尔曲线网络进行进行实时场景文本定位 ABCNet:Real-time Scene Text Spotting with Adaptive Bezier-Cu ...

  4. 微帧科技对于AV1在RTC实时场景中的现状与展望

    2018 年 6 月,AOM 联盟(Alliance for Open Media,开放媒体联盟)发布了新一代视频编码标准--AV1(Alliance for Open Media Video 1). ...

  5. 沙龙回顾|ClickHouse 在实时场景的应用和优化

    此次分享分为三部分内容,第一部分通过讲解推荐和广告业务的两个典型案例,穿插介绍字节内部相应的改进.第二部分会介绍典型案例中未覆盖到的改进和经验.第三部分会提出目前的不足和未来的改进计划. (文末附 C ...

  6. OpenCV差分二值化的实时场景文本检测的实例(附完整代码)

    OpenCV差分二值化的实时场景文本检测的实例 OpenCV差分二值化的实时场景文本检测的实例 OpenCV差分二值化的实时场景文本检测的实例 OpenCV差分二值化的实时场景文本检测的实例(附完整代 ...

  7. 对话声网CEO赵斌:API吃掉世界,在RTC+AI+5G的交点上构建实时场景

    郭一璞 发自 悠唐 量子位 报道 | 公众号 QbitAI 2014年,曾经是YY CTO的赵斌在硅谷创立了声网. 这家公司的主要业务,就是借助API的方式,让全世界的开发者都能方便的在自家应用里接入 ...

  8. 盘一盘!实时自动驾驶车辆定位技术都有哪些?(视觉/Lidar/多传感器数据融合)...

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[SLAM]技术交流群 后台回复[车辆定位综述]获取论文! 1摘要 实时.准确和鲁棒的定 ...

  9. 实时自动驾驶车辆定位技术都有哪些?(视觉/Lidar/多传感器数据融合)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨汽车人 来源丨自动驾驶之心 编辑丨3D视觉工坊 点击进入->3D视觉工坊学习交流群 1摘要 ...

最新文章

  1. 1.1 Windows 程序运行原理(消息循环和响应)
  2. 《看聊天记录都学不会C语言?太菜了吧》(10)程序媛聪明绝顶了
  3. Opencv FFmpeg Ubuntu下编译问题
  4. jquery获取select选择的文本与值
  5. python读取mysql数据库_Python操作MySQL数据库9个实用实例
  6. Pig-0.13.0的编译
  7. 学生管理系统java源代码_java学生管理系统源代码
  8. visio2013找到密钥以后但是未激活状态
  9. Java 设计模式 Adapter 类适配器 模式
  10. C/C++程序之根据有向图、无向图求通路、回路、可达矩阵
  11. ubuntu 扫描局域网ip
  12. AE duik插件运用-人物行走动画
  13. 2021.1.6寒假打卡Day3
  14. 拒绝纷繁复杂 快速制表软件分享
  15. 香港服务器适合用来搭建app吗。
  16. 数据可视化新闻,不一样的新闻报道形式
  17. 掌握这些Java 后端面试题,20K妥妥的,400多人在学习
  18. Web3:创作者经济的黄金时代
  19. 怎么用matlab求兔子繁衍,习题4-11 兔子繁衍问题 (15 分)
  20. 画板(DrawBoard)

热门文章

  1. 国产数据库“第一股”拟上市,22年试炼场终“达梦”
  2. Java小项目中WEB-INF下jsp页面如何访问?
  3. 大数据题目测试(一)
  4. Windows 右下角 输入法 图标 不见了 显示输入法 图标 绝对成功
  5. 我发现个bug 收藏网摘之后,修改网摘的名字,网摘那里修改成功 但是在我的园子里这里还是原来的老名字.......
  6. YL-64 颜色传感器
  7. 一文介绍机器学习中基本的数学符号
  8. 小白对挂载的简单理解
  9. 日常生活中的机器学习--各类机器学习问题
  10. 滤波算法——均值滤波,中值滤波,一阶(αβ)滤波,卡尔曼滤波