原文:MIT’s New AI Can (Sort of) Fool Humans With Sound Effects
译者:刘翔宇 审校:刘帝伟
责编:周建丁(zhoujd@csdn.net)

神经网络已经在玩游戏方面超过了我们,并且也应用于 智能手机照片的管理以及邮件回复方面。此外,它们还能在好莱坞谋得一职。

在MIT的计算机科学和人工智能实验室(CSAIL),一个由6位研究人员组成的小组创建了一套机器学习系统,它可以将声音效果与视频剪辑匹配。别高兴得太早,CSAIL的算法还不能在任何旧的视频上工作,而且它产生的声音效果也是有限的。对于该项目,CSAIL的博士生Andrew Owens和研究生Phillip Isola将他们用鼓槌重击一堆东西录制成视频,包括树桩、桌子、椅子、水坑、楼梯扶手、枯叶,还有肮脏的地面。

该小组将最初的1000个批量视频输入到它的AI算法中。通过分析视频中物体的物理外观,鼓槌的每次运动轨迹,还有最终的声音,计算机能够学习到物理物体和它被击中所发声音之间的联系。然后,通过“观看”物体被鼓槌重击,轻敲和刮蹭时的不同视频,这个系统可以计算出伴随每个剪辑相应的音调、音量以及的声音听觉特性。

视频:https://youtu.be/0FW99AQmMc8

该算法本身不产生声音——它只是从成千上万的音频剪辑数据库中获取数据。此外,声音效果也不是基于视觉匹配来选择;你可以在上面视频中1:20处看到,该算法有自己的创意。它随着沙沙作响的塑料袋来选择声音效果,在灌木从彻底被鼓槌敲击时直接给出声音效果。

Owens说,研究小组使用 卷积神经网络来分析视频帧,递归神经网络来选择对应的音频。

它们的学习过程主要来自于Caffe深度学习框架,该项目也由美国国家科学基金会(National Science Foundation and Shell)资助。小组的一名成员在谷歌研究院工作,Owens则是微软研究奖学金计划的一员。

Owens说,“我们几乎已经把现有的深度学习技术运用到了新领域,我们的目标不是开发新的深度学习方法。”

听音辨物

为视频匹配逼真声音是音效师的主要工作领域——后期制作音频向导,他们记录你在一部好莱坞电影中看到(和听到)的脚步声、门的嘎吱声、腾空横踢。

一位出色的音效师可以将声音精确匹配给视频,让观众误以为这声音是实际捕捉到的。

MIT的机器人还没有这么娴熟。该研究小组进行了一项在线调查,为4000名参与者展示了同一视频配上原始音频和算法生成的声音版本,然后让他们选择哪个视频里的声音是真实的。有22%的人选择了假音频——还远不完美,但效果仍是之前版本算法的两倍。

根据Owens所述,那些测试结果是一个好兆头,预示着计算机视觉算法可以检测物体的组成,以及轻敲、重击、刮蹭物体时产生的不同物理效果。不过,还是有些物体系统不能正确处理。有些时候,系统会认为鼓槌在撞击某一物体,但实际上并没有,比起对更坚实物体产生的声音效果,更多的人更容易被对落叶和灰尘产生的声音效果愚弄。

这个项目不仅仅是为了产生有趣的声音效果,它背后还有更深层的原因。Owens认为,如果该系统已经非常完善,那么计算机视觉技术就可以帮助机器人通过分析物体发出的声音来识别它的材质和物理属性。Owens说,“我们希望这些算法通过观察这些物理相互作用以及响应来学习,你可以把它想象成婴儿那样通过敲打、跺脚和玩耍来学习世界。”

以假乱真,MIT基于深度学习的新算法给视频配音相关推荐

  1. 基于深度学习的多目标跟踪算法——ReID与MOT的联系

    ©PaperWeekly 原创 · 作者|黄飘 学校|华中科技大学硕士 研究方向|多目标跟踪 最近基于深度学习的多目标跟踪算法越来越多,有用于特征提取的,有改进单目标跟踪器的,也有提升数据关联的.如果 ...

  2. 基于深度学习的多目标跟踪算法(上):端到端的数据关联

    ©PaperWeekly 原创 · 作者|黄飘 学校|华中科技大学硕士生 研究方向|多目标跟踪 最近基于深度学习的多目标跟踪算法越来越多,有用于特征提取的,有改进单目标跟踪器的,也有提升数据关联的.如 ...

  3. 三维图形几何变换算法实验_基于深度学习的三维重建算法综述

    点击上方"计算机视觉life",选择"星标" 快速获得最新干货 00 前言 目前,三维重建技术已在游戏.电影.测绘.定位.导航.自动驾驶.VR/AR.工业制造以 ...

  4. 基于深度学习的三维重建算法综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 00 前言 目前,三维重建技术已在游戏.电影.测绘.定位.导航.自动驾驶.VR/AR.工业制造以及消费 ...

  5. 一种基于深度学习的目标检测提取视频图像关键帧的方法

    摘要:针对传统的关键帧提取方法误差率高.实时性差等问题,提出了一种基于深度学习的目标检测提取视频图像关键帧的方法,分类提取列车头部.尾部及车身所在关键帧.在关键帧提取过程中,重点研究了基于SIFT特征 ...

  6. 三维重建 几何方法 深度学习_基于深度学习的三维重建算法:MVSNet、RMVSNet、PointMVSNet、Cascade系列...

    欢迎关注微信公众号"3D视觉学习笔记",分享博士期间3D视觉学习收获 MVSNet:香港科技大学的权龙教授团队的MVSNet(2018年ECCV)开启了用深度做多视图三维重建的先河 ...

  7. 基于几何学习图像的三维重建发展_基于深度学习的三维重建算法:MVSNet、RMVSNet、PointMVSNet、Cascade系列...

    欢迎关注微信公众号"3D视觉学习笔记",分享博士期间3D视觉学习收获 MVSNet:香港科技大学的权龙教授团队的MVSNet(2018年ECCV)开启了用深度做多视图三维重建的先河 ...

  8. 基于深度学习和传统算法的人体姿态估计,技术细节都讲清楚了

    作者 | 站长 pursueYfuture 来源 | AI专栏(ID: pursue-Y-future) 计算机视觉的一大研究热点是人体姿态估计,还有很多问题急需解决,比如遮挡,交互等等.在最近的CV ...

  9. 看完这篇AI算法和笔记,跟面试官扯皮没问题了 | 基于深度学习和传统算法的人体姿态估计

    点击蓝色"AI专栏"关注我哟 重磅干货,第一时间送达 这是站长的第 41 篇原创优质长文 前几天站长写的一篇的文章[基于深度学习算法和传统立体匹配算法的双目立体视觉]大受好评.这次 ...

  10. 基于深度学习的新冠疫情数据分析

    摘要:在全球抗击新型冠状病毒肺炎(COVID-19)疫情的过程中,合理的疫情传播预测对于疫情防控有重要参考意义.为了对病毒传播进行合理预测,针对传统疫情传播预测模型存在的不足,在BP神经网络提出一种组 ...

最新文章

  1. 【机器学习】【发展史】概览
  2. 硬盘发生不同的故障要采用不同的方案恢复数据
  3. oracle加undo+resize,How To resize undo tablespace in Oracle
  4. 弹性方法计算内力例题_弹性力学重要公式汇总,还不快来强记一波【含参考答案】...
  5. labview嵌入c代码_Raspberry pi 4B+LabVIEW_2020amp;NXG部署WebApp
  6. 微软推出全新的Windows 10系统图标
  7. 2. python 参数个数可变的函数
  8. 初识贪心——调度问题
  9. ubuntu14.04 安装pidgin-lwqq
  10. 小程序提交不能保存,后台可以正常保存
  11. bae java乱码_BAE安装HotNews Pro乱码解决方案
  12. VB 子类化技术详解
  13. 计算机教育部 学科分类,教育部学科分类及代码分类查询.pdf
  14. 电音制作宿主软件-Ableton Live Suite v10.1.30 WIN-MAC 中文版下载
  15. ENSP配置 实例六 OSPF配置
  16. TBase集群安装配置
  17. ios录音文件路径_苹果6s的录音储存在哪个文件夹
  18. 《一舞醉红尘,一笑歌岁月》
  19. SAP Scripting Tracker基本使用技巧
  20. 使用vue解决vs编辑器格式化分号逗号问题

热门文章

  1. html css样式出不来与背景图片出不来的解决办法
  2. 职场中, 千万要远离你身边的“杨超越”!
  3. 红帽企业 Linux 8.0,红帽发布企业版 Linux(RHEL) 8.0 | Linux 中国
  4. 华为公司招聘职位汇总
  5. Swagger和knife4j生成接口文档显示不出来的问题
  6. 分享:在没有人相信你的时候,你的任何努力都会为自己加分
  7. 华为鸿蒙os2.0系,中国自研新起点!华为鸿蒙OS 2.0手机版,这一次真的来了
  8. winform设置窗体颜色为渐变色
  9. 蓝本蓝科技:社群运营常见问题及处理办法
  10. 为什么我给学习Thinkphp小伙伴推荐学习fastadmin