点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

丰色 发自 凹非寺
转载自:量子位(QbitAI)

CLIP大家都不陌生吧?

由OpenAI于今年1月份推出,能够实现文本描述与图片的精准匹配。

现在,有人“灵机一动”,从CLIP中学习了一种音频表示方法。

用这个方法搭配VQGAN-CLIP,就能实现声音到图像的转变

比如给它听4种不同的青蛙叫,它就能生成4种青蛙的照片:


 篇幅有限,只贴第一张图片对应的音频

给它听不同的教堂铃声,就能生成下面这样的图像:

 篇幅有限,只贴第一张图片对应的音频

再来一段更直观的根据音频生成的视频:

嗯,画风有点诡异,彷佛看到了还未被完全驯服的AI的内心世界……

不过这是不是还挺有意思?

那同样都使用VQGAN-CLIP,到底是用文字生成还是用这种音频表示的生成效果更好呢?

这也有一张对比图片:

第一行是VQGAN-CLIP根据文字生成的图片,第二行是根据音频。从左到右分别为:街头音乐、狗叫、小孩玩耍、枪击声。

你觉得哪个更像?

目前,关于这个音频表示方法的研究已被国际声学、语音与信号处理顶会ICASSP接收。

所以,一个音频是怎么和图像连接起来的呢?

从CLIP中提取音频表示方法

下面就来看看这个音频表示方法有何特殊之处。

方法名叫Wav2CLIP,从下图我们可以看出它和CLIP的模型架构非常像。

作为视听(audio-visual)对应模型,Wav2CLIP也有两个编码器,一个是冻结图像编码器(Frozen Image Encoder),一个是音频编码器,分别从视频中提取图像和音频数据进行训练。

冻结图像编码器通过冻结CLIP的图像编码器获得,也就是将CLIP视觉模型的图结构和权重固化到一起后直接加载运行。

音频编码器的预训练通过提取视频中CLIP图像的embedding完成,这也是Wav2CLIP的前置(pretext)任务。

按照CLIP论文的原始方法,研究人员采用对比损失(contrastive loss)进行特征提取,并添加多层感知器(MLP)作为投影层。

交叉投影的损失函数定义如下:

 f/g:投影函数,L:对比损失函数

添加MLP层的好处有两个:

一是有助于稳定提取过程;

二是能够加强多模态的一致性,因为模型学习到的音频embedding能通过这个投影层恢复CLIP图像的embedding。

总的来说,Wav2CLIP的训练数据为一段视频,利用CLIP的图像编码器(freeze操作)对音频图片和音频进行特征提取,就可以生成“明白”自己应该对应什么图片的音频表示。

所以反过来也可以根据这种表示推出图片,就像我们在开头看到的“青蛙”和“教堂铃声”一样。

具体方法就是通过把引导VQGAN在潜空间中查找与文本提示匹配的图像的CLIP embeddings,替换成Wav2CLIP音频embeddings而完成。

由于Wav2CLIP不同于以往的视听对应模型,它不需要将视觉模型与听觉模型结合起来学习,所以训练方法也就非常轻量级。

再加上Wav2CLIP的embeddings源于CLIP,这意味着它们是与文字对齐的。

所以经过额外层的训练,Wav2CLIP也能执行零样本音频分类、音频字幕和跨模态检索(根据文本搜索音频)等下游任务。

下游任务性能比较

在实验评估中,Wav2CLIP采用ResNet-18的架构作为音频编码器。

首先来看Wav2CLIP在分类和检索任务上的性能。

  • 与非SOTA的音频表示模型相比,Wav2CLIP在几乎所有分类和检索任务中的性能都比YamNet和OpenL3略强,不是最强的地方,表现和第一名差别也不大。

具体在检索任务上,对于音频检索(AR),可以看到Wav2CLIP作为帧级特征提取器的性能很有竞争力。

对于跨模态检索(CMR)任务,Wav2CLIP达到了0.05 MRR,这意味着它能够从前20个音频中检索出正确结果,比OpenL3好不少。

  • 与SOTA模型相比,仍有改进的余地

不过也情有可原,因为对于大多数SOTA模型来说,编码器在每个任务上都经过专门的训练或微调,而Wav2CLIP只用冻结特征提取器,并且只训练简单的MLP分类器输出答案,也就是所有任务都采用的是同一个音频编码器。

再看在音频字幕任务中与基线比较的结果:

所有指标都略优于基线。

不过作者表示,这不是一个公平的比较,因为他们的编码器和解码器架构都不同,但他们想表明的是:Wav2CLIP很容易适应不同的任务,并且仍然具有合理的性能。

最后再来看一下Wav2CLIP与OpenL3和YamNet使用不同百分比的训练样本进行VGGSound音频分类的结果(VGGSound包含309种10s的YouTube视频)。

可以发现Wav2CLIP碾压OpenL3,和YamNet不相上下——使用10%的训练数据就能达到相同性能。

不过Wav2CLIP和YamNet预训练的前置任务非常不同,YamNet需要大量的标记数据,Wav2CLIP在完全没有人工注释的情况下完成预训练,所以Wav2CLIP更易于扩展

总的来说,这种音频表示方法进一步训练的模型在上面这3种任务上都能表现出与同类相媲美或更高的性能。

在未来工作方面,研究人员表示将在Wav2CLIP上尝试各种专门为多模态数据设计的损失函数和投影层,并探索从共享embedding空间生成音频,以实现从文本或图像到音频的跨模态生成。

论文地址:
https://arxiv.org/abs/2110.11499

开源代码:
https://github.com/descriptinc/lyrebird-Wav2CLIP

更多音频转图像的demo欣赏:

https://descriptinc.github.io/lyrebird-wav2clip

ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲长按加小助手微信,进交流群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

真会玩!用音频指挥GAN生成图像相关推荐

  1. 现在,用音频也能指挥GAN生成图像了

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI CLIP大家都不陌生吧? 由OpenAI于今年1月份推出,能够实现文本描述与图片的精准匹配. 现在,有人"灵机一动",从 ...

  2. 最新 ICCV | 35个GAN应用主题梳理,最全GAN生成对抗论文汇总

     戳我,查看GAN的系列专辑~! 在最新的视觉顶会ICCV 2021会议中,涌现出了大量基于生成对抗网络GAN的论文,广泛应用于各类视觉任务:本文在此做尽可能的梳理汇总! 下述论文已分类打包好!后台回 ...

  3. ai模型去除图像衍射光斑_业界 | GAN生成的假脸太逼真了!别怕,十招教你识别AI生成的假图像...

    大数据文摘出品 编译:张秋玥.蒋宝尚 你能看出上面两张图片,哪张是真的,哪张是假的么?文摘菌是分不出来,太像了! 这种以假乱真的图片生成技术来源于一种左右互博术-生成对抗网络(GAN). 这一概念由机 ...

  4. GAN属于计算机视觉领域嘛_GAN生成图像综述

    作者信息: YTimo PKU EECS 研究方向:深度学习,计算机视觉 原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲 ...

  5. AI版“大家来找茬”上线,究竟谁是真人,谁是GAN生成的假脸?

    郭一璞 发自 凹非寺  量子位 报道 | 公众号 QbitAI 一直以来,都是人类用各种奇奇怪怪的问题刁难AI: 识别人脸.生成画作.理解语义.分辨文字-- 现在,人类终于也轮到被AI刁难了. MIT ...

  6. GAN生成对抗网络综述

    前阵子学习GAN的过程发现现在的GAN综述文章大都是2016年Ian Goodfellow或者自动化所王飞跃老师那篇(最新发现一篇更新paper,也是王飞跃老师的:http://blog.scienc ...

  7. 爷青回!GAN生成的超级马里奥关卡,可以永不通关的那种!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 子豪 发自 凹非寺 本文转载自:量子位(QbitAI) 先来一波回忆 ...

  8. 爷青回!GAN生成的超级马里奥关卡,可以永不通关的那种

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 先来一波回忆杀~ <超级马里奥兄弟>的重度玩家们,可能已经发现了,这并不是原本32关里面的. 不过,如果你以为这是<马里奥 ...

  9. 论文盘点:GAN生成对抗样本的方法解析

    ©PaperWeekly 原创 · 作者|孙裕道 学校|北京邮电大学博士生 研究方向|GAN图像生成.情绪对抗样本生成 引言 对抗样本的生成方式很多.一般情况下会分成三大类,第一种是基于梯度的生成方式 ...

最新文章

  1. # 可视化工具资源汇总
  2. Worker启动Executor源码
  3. Unix整理笔记-vi简介-里程碑M8
  4. SAP Leonardo机器学习Restful API如何获得Access Token
  5. React开发(203):react代码分割之React.lazy
  6. html导出excel 内存不足,web导出excel那些坑
  7. MongoDB 或者 redis 可以替代 memcached 吗?
  8. 再拔头筹,FusionInsight为华为云大数据打造硬实力
  9. HDU-2553N皇后问题(dfs)
  10. 如果美图可以把妹,如何用技术手段做一个会拍照的程序员?
  11. 爬取菜鸟教程Python100例
  12. python折叠代码_使用region注释,将代码块收(折叠)起来
  13. 网线百兆与千兆的接法
  14. ③企业虚拟化Kvm 管理、kvm高级命令、磁盘格式转换、挂载磁盘、第三篇
  15. 推荐一款 GitHub 星标 11.5K 的神器,可将任何设备转换为电脑辅助屏幕
  16. Android入门知识全套笔记
  17. Portainer的下载与安装
  18. 浅斟低唱的词坛第一人——柳永
  19. Java微信浏览器上传文件使用Base64方法(增加压缩上传方法)
  20. 聊聊P6赢得值理论的运用

热门文章

  1. 9E技术员家园注册码;a266
  2. BZOJ3597: [Scoi2014]方伯伯运椰子
  3. react hooks中如何关闭setInterval的定时器
  4. 怀旧服服务器在线人数查询,民间大神用土方法估算出魔兽怀旧服在线人数 震动了官方...
  5. ExcelWPS通配符的使用方法,一招解决模糊查询!
  6. CCNP路由实验专题讲解视频课程--策略路由(PBR)篇-晁海江-专题视频课程
  7. canvas绘制中国国旗!
  8. 人物专属道具--战国二
  9. 如何设计Service层
  10. Nginx 反向代理详解