豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现

内容来源：ATYUN AI平台

改变美洲豹身上的斑点似乎是个很有趣的想法，而这个想法也并非天方夜谭。通过NVIDIA新的加速GPU深度学习技术，无论是图片还是视频，甚至是实体美洲豹，都能使其变成猫、老虎或狗，而且可以实时转变，即动作也与原先一致。

一变多（图片或视频）给游戏开发者和制片人带来诸多便利，比如效率更高、花费时间更少，一变多得到更多经验。这一技术也为无人驾驶技术带来灵感，即快捷地产生多样的培训数据来处理更复杂多变的道路状况。

精彩视频点击链接：豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现

一变多

研究人员在12月的神经信息处理系统研讨会上，提出了他们先人一步的早期工作——图像转换，更广为人知的是叫法是NIPS。论文中所描述的方法是逐一工作，将一个图像或视频映射到另一个上。

近期发表的论文中提出的新技术是多模式的（multimodal），可同时将一个图像转换成许多图像。多模式图像转换是强大的NVIDIA研究团队的最新成果。

想象力的提升

就像NIPS的研究一样，多模式图像转换依赖于两种深度学习技术——无人监管学习和生成对抗网络（GANs），让机器更有想象力，比如让其想象一个阳光明媚的街道在暴风雨中或冬季时的景貌。

现在，研究人员不用将夏季的驾驶视频对应到一个冬季的例子上，而是可以创造出一组不同的冬季驾驶视频，雪景也可以多种多样。这种技术在一天中不同的时间和其他天气条件下，都是以同样的方式进行处理，在阴天里提供阳光，或者把夜晚变成黎明、下午或黄昏时刻。另外，该技术在训练用于自动驾驶汽车的深层神经网络方面非常有价值。

在游戏世界里，多模式图像转换可以让电影工作室更高效地创造新角色或新世界。艺术家们可以丢下乏味的任务，去创造更为丰富复杂的故事。

多模式的无人监管图像对图像转换框架，即MUNIT，通过内容与风格来区分图像。例如，在一张猫的照片中，猫的姿势就是内容，而品种则是风格，姿势是固定的。如果把一幅家猫的照片转换成美洲豹或狗，那么动物的位置必须保持一致。品种及物种是要进行区别的，比如短毛家猫、美洲豹或柯利牧羊犬。

缺少数据也没问题

这项研究是建立在一种擅于产生视觉数据的深度学习方法上的。一个GAN使用两个相互竞争的神经网络：其中一个用来生成图像，另一个评估生成的图像的真假。而当数据不足时，GANs特别实用。

通常情况下，图像转换需要相应的图像数据集，如柯利牧羊犬、拉布拉多或老虎的图像，它们的位置必须与最初要转换的猫的形象完全相同。这类数据极难找到，而MUNIT的优点是它并不需要这些数据也可以完成任务。

用MUNIT很容易为自动驾驶汽车生成训练数据，而且不需要从相同的角度捕捉相同的视频片段，只需要同样的视角，以及在相同位置记录的所有接近的车流和其他细节。此外，GANs使人们不再需要对每个图像或视频的内容进行标记，节省了大量的时间和人力。

本文转自ATYUN人工智能媒体平台，原文链接：豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现

更多推荐

Alphabet设立专门投资AI初创的风投子公司Gradient

LSTM循环神经网络实例：教你处理LSTM神经网络序列预测问题

Python学习入门训练：使用Python完成你的第一个学习项目

**欢迎关注ATYUN官方公众号,商务合作及内容投稿请联系邮箱:bd@atyun.com**

豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现相关推荐

英伟达新研究：“狗生猫，猫生万物”的多模态无监督图像转换
林鳞编译整理量子位出品 | 公众号 QbitAI 英伟达最近的一项研究看起来有点神奇. 一张普通的猫咪图像,可以被转换成一只老虎.一头狮子或一只美洲豹. 还是一张普通的猫咪图,还能被转换成 ...
【clickhouse】ClickHouse 在实时场景的应用和优化-字节跳动技术沙龙第6期笔记
文章目录 1.概述 2.早期 2. 运维经验 1.概述 2.早期
ABCNet 精读：使用自适应贝塞尔曲线网络进行进行实时场景文本定位 OCR 文本定位文本检测 CVPR
文章目录 ABCNet 导读:使用自适应贝塞尔曲线网络进行进行实时场景文本定位 ABCNet:Real-time Scene Text Spotting with Adaptive Bezier-Cu ...
微帧科技对于AV1在RTC实时场景中的现状与展望
2018 年 6 月,AOM 联盟(Alliance for Open Media,开放媒体联盟)发布了新一代视频编码标准--AV1(Alliance for Open Media Video 1). ...
沙龙回顾｜ClickHouse 在实时场景的应用和优化
此次分享分为三部分内容,第一部分通过讲解推荐和广告业务的两个典型案例,穿插介绍字节内部相应的改进.第二部分会介绍典型案例中未覆盖到的改进和经验.第三部分会提出目前的不足和未来的改进计划. (文末附 C ...
OpenCV差分二值化的实时场景文本检测的实例(附完整代码)
OpenCV差分二值化的实时场景文本检测的实例 OpenCV差分二值化的实时场景文本检测的实例 OpenCV差分二值化的实时场景文本检测的实例 OpenCV差分二值化的实时场景文本检测的实例(附完整代 ...
对话声网CEO赵斌：API吃掉世界，在RTC+AI+5G的交点上构建实时场景
郭一璞发自悠唐量子位报道 | 公众号 QbitAI 2014年,曾经是YY CTO的赵斌在硅谷创立了声网. 这家公司的主要业务,就是借助API的方式,让全世界的开发者都能方便的在自家应用里接入 ...
盘一盘！实时自动驾驶车辆定位技术都有哪些？（视觉/Lidar/多传感器数据融合）...
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[SLAM]技术交流群后台回复[车辆定位综述]获取论文! 1摘要实时.准确和鲁棒的定 ...
实时自动驾驶车辆定位技术都有哪些？（视觉/Lidar/多传感器数据融合）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨汽车人来源丨自动驾驶之心编辑丨3D视觉工坊点击进入->3D视觉工坊学习交流群 1摘要 ...

豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现

豹变猫？实时场景转变？NVIDIA多模式图像转换技术都能实现相关推荐

最新文章

热门文章