CVPR 2020 | 跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声
点击上方,选择星标或置顶,不定期资源大放送!
阅读大概需要5分钟
Follow小博主,每天更新前沿干货
转载自:量子位
见识过「听歌识曲」,体验过看弹奏动作识曲吗?
就像最近的一档综艺节目中,郎朗比划了几个弹钢琴的动作,他媳妇(吉娜·爱丽丝)秒答:《柴可夫斯基第一协奏曲》!
来自华盛顿大学的研究团队提出了一种新方法Audeo,就解锁如此神奇的操作——仅仅根据钢琴师弹奏时的动作,就能直接复现原声音乐。
先来体验下这种神奇的感觉。
下面便是钢琴师演奏时的动图,我们能看到的,仅仅就是手指在钢琴键盘上的变换。
然后,你知道这是哪首曲子吗?
大部分人(或许郎朗级别的大神们可以)应该是猜不到的。
但AI可以,下面便是这项技术复现的原声音乐。
那么,这般神奇的操作是怎么实现的呢?
三步实现「看动作识音乐」
简单来说,Audeo方法主要包括三大步骤,分别是:
钢琴按键检测
生成乐谱内容
合成音乐
钢琴按键检测
这个步骤可以理解为一个多标签(multi一label )分类问题。
输入是弹钢琴视频中5个连续的帧,将它们输入到Video2Roll Net中,经过ResNet18、特征变换、特征细化(refinement)和相关学习的处理,最后输出中间帧的按键预测。
值得注意的是,在这个步骤中,研究人员没有直接使用ResNet18,而是在此基础上做了算法改良,提出了Video2Roll Net。
这样做的原因很简单,就是ResNet18检测到的「精度」不够细致,下面2张热力图的对比,便一目了然地展示了2种方法的效果。
生成乐谱内容
在第二个步骤中,就需要将 Roll 转换为 Midi(乐器数字接口),以便合成音乐。
但在上步生成出来的 roll ,没办法直接转换成 Midi,一个至关重要的原因就是—— Roll 不包含时间信息。
此外,由于 Midi 比较依赖音频流,所以经常出现的一个现象就是:演奏者按一个钢琴键的时间较长时,相应频率的幅度会逐渐衰减为零,也就是在 Midi 中会被标记为零。
像下面这张图中显示的那样,就会造成不匹配的现象。
并且,研究人员表示:
这种不匹配的现象,是经常发生的。
于是,研究人员便提出了一个叫 Roll2Midi Net的方法解决了这个问题。
主要是在二者之间加入了一个生成对抗网络(GAN),来调节并解决上述问题。
合成音乐
最后一步,就是根据调节好的 Midi 来生成音乐,主要过程如下图所示。
将 Midi 作为输入,经过一个上采样,而后可以选择通过「Midi 合成器软件」,也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来生成音乐。
至于 Audeo 方法与其它方法的定量比较,主要集中在第二个核心步骤。
可以明显看到,研究人员在第二步骤中提出来的 Roll2Midi Net方法,在各项评测指标中,都具有一定优势。
合成音乐还可以转换成别的乐器
当然,Audeo 除了精准复现视频中的钢琴音乐外,还有一个更有意思的玩法。
它可以将钢琴原声,转换成其他乐器的声音。
例如,可以将钢琴音乐转换成吉他的声音。
还可以将钢琴音乐转换成日本十三弦古筝的声音。
这个有趣的玩法,主要得益于「合成音乐」这个步骤,选择的方法不同,得到的结果便不同。
研究团队
这项研究由华盛顿大学的三位研究人员共同完成,研究还入围了本届CVPR。
△从左至右:Kun Su、Xiulong Liu和Eli Shlizerman
论文一作是Kun Su,本科就读于美国纽约州伦斯勒理工大学(RPI),目前在华盛顿大学攻读电子与计算机工程系攻读硕士。
△Kun Su
研究的另一位作者是Xiulong Liu,本科在上交大就读,硕士毕业于华盛顿大学,目前在OneClick.ai 担任数据科学家。
△Xiulong Liu
论文最后一位作者是Eli Shlizerman,华盛顿大学应用数学及电子与计算机工程助理教授。
目前专攻生物神经网络和人工神经网络的基本特性,通过结合时空数据分析、机器学习和动力系统理论的方法将这两个系统联系起来。
△Eli Shlizerman
那么问题来了,如果以郎朗的手速弹奏钢琴,这个AI的效果还会如此惊艳吗?
论文地址:https://arxiv.org/abs/2006.14348
欢迎添加群助手微信,邀请您加入大佬云集-计算机视觉交流群!
???? 长按识别添加,邀请您进群!
CVPR 2020 | 跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声相关推荐
- 跟郎朗媳妇有得一拼的AI,只看弹琴动作,完美复现原声 | CVPR 2020
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见识过「听歌识曲」,体验过看弹奏动作识曲吗? 就像最近的一档综艺节目中,郎朗比划了几个弹钢琴的动作,他媳妇(吉娜·爱丽丝)秒答:<柴可 ...
- CVPR 2020 Oral 出炉!5篇 Oral 论文抢先看
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 转载自:极市平台 在2月24日,CVPR 2020 公布接收论文结果公布,从 6656 篇有效投稿中录 ...
- 2020年贺岁杯围棋争霸赛今日开赛,AI+围棋看点十足
1月20日,2020第八届CCTV贺岁杯中日韩新春围棋争霸赛在成都市武侯区拉开战幕,中国的柯洁.韩国的朴廷桓和日本的芝野虎丸将在为期三天的比赛中,携手为全世界的棋迷献上新春贺礼.聂卫平.华学明.常昊. ...
- 【深度学习】270篇CVPR 2020代码开源的论文,全在这里了!
整理不易,希望点个在看或者转发,支持一下 前言:1467篇 CVPR 2020 "不开源,就是耍流氓","开源,就是生产力",这是我们经常调侃的话术.因为我们经 ...
- 如何评价CVPR 2020年投稿量过万的盛况?
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 编辑:Amusi https://www.zhihu.com/que ...
- MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral)
MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral) Tracking by Instance Detection: A Meta-Learning Approach 论文链接:h ...
- CVPR 2020目标跟踪多篇开源论文(下)
CVPR 2020目标跟踪多篇开源论文(下) Cooling-Shrinking Attack: Blinding the Tracker with Imperceptible Noises 作者团队 ...
- CVPR 2020目标跟踪多篇开源论文(上)
CVPR 2020目标跟踪多篇开源论文(上) SiamBAN:面向目标跟踪的Siamese Box自适应网络 作者团队:华侨大学&中科院&哈工大&鹏城实验室&厦门大学等 ...
- 多篇开源CVPR 2020 语义分割论文
多篇开源CVPR 2020 语义分割论文 前言 DynamicRouting:针对语义分割的动态路径选择网络 Learning Dynamic Routing for Semantic Segment ...
最新文章
- 斯坦福AI 5小时DNA测序破世界纪录!创人类新里程碑,成本仅3万
- android studio 退出编译,Android studio用什么命令可以退出当前应用
- Spring Boot有四大神器
- 【CodeForces - 260D】Black and White Tree (思维构造,猜结论,细节,构造一棵树)
- hadoop常见算法(持续更新)
- 【idea基础知识】常用快捷键整理
- 如何查看.net framework 版本
- Mac下sudo后环境变量失效的问题
- Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2问题解决
- iOS开发之MAC的内存清理,Xcode清理
- 设计模式之组合模式——Java语言描述
- 【C语言】实现简易计算器
- webservice 参数太大_webservice大数据
- 0xC0000005: 读取位置 0x00000000 时发生访问冲突
- 【暑假阅读推荐书目】历史篇·中国史
- html调用wmp,web页面中嵌入window media player,支持IE和Chrome
- 在线直播源码,VUE 获奖名单滚动显示的两种方式
- 目标检测算法——GHM
- MT6(8)735平台Android5.1 codege.dws 配置
- 解析|当前企业OA系统面对的困难与解决方案