摘要

文中介绍了调制变分自动编码器用于多对多的音乐音色转换。首先,通过目前的域迁移技术结合特征层面的线性调表明方法的可行性。其次,通过最大平均差目标代替通用的迁移标准缓和了对GAN的需求,这允许更快、更稳定的训练以及可控制的隐空间编码器。
最终的MoVE模型可以实现多对多的乐器音色的转换以及音乐的合成,并且该结构在小数据集上训练具有有轻便、快速的特性,多域迁移时的控制也是有效的。

一、介绍

  • 1.通过对VAE引入条件实现特定域的迁移,形成了MoVE
  • 2.使用最大平均差目标代替判别器网络,缓和了每个域的额外对抗训练的需求。

鉴于A universal music translation需要多个decoder的缺点,文章引出了MoVE在域信息的控制下,利用一个encoder和一个decoder实现多对多的音色转换。

二、相关工作

MoVE提出的背景

  • 1.部分权值共享的VAE将两个域的信息映射到一个公共的域表达。这个过程需要辅助的对抗分类器,这种结构只能在一对域上操作。
  • 2.为了实现多对多的转换,有学者提出condition GAN,这可以在多个域同时训练,并能够控制生成过程。但是上述网络的作者却是在相似的域上使用上述网络,并且存在GAN的通用问题,训练困难、往往缺乏对数据的全面支持同时也并未提供以一个隐空间encoder。
  • 3**.最近,人们提出了一种基于特征的线性调制(FiLM )方法,通过学习网络中的条件偏差和缩放来改善条件反射。在每个中间实例规范化之后应用基于样式图像的自适应调制。**
  • 4.因此,文章通过引入FiLM层来实现域条件化,结合一个VAE,最终实现多对多的音色转换。**此外,通过引入最大平均差目标来缓和对GAN和具体的对抗分类器的需求。**因此获得了一个无监督的轻量权重的易于训练,且带有一个通用的可控的隐空间的网络模型。

三、音乐音色转换的结构

1.one-one

主要的想法是学得两个域之间的一个共享的隐空间,根据难以处理的真实后验分布评估近似潜密度的误差,文中的假设是真实的后验分布服从高斯分布,即p(z/x)。但存在问题是,通常没有两个域之间的匹配的数据集用于优化decoder。GAN中使用的方法是利用一个判别器将生成的数据和原始的数据区分,但GAN的复杂与训练不稳定。

重建loss

本质上根据难以处理的真实后验分布评估近似潜密度的误差。

MMD loss(最小化)
文中引入了MMD代替对抗标准。在domain adaptation中,经常用到MMD来在特征学习的时候构造正则项来约束学到的表示,使得两个域上的特征尽可能相同。

循环一致loss

2.many-many

为了弥补one-to-one需要多个模型的缺点,引入了MoVE。该模型的关键是使用不同的类别条件实现不同乐器之间的转换,即条件策略的引入需要保留音高和octave的控制。FiLM generators 是根据输入的domain信息和generation control的信息为网络中的FiLM层提供相应r,β,用于调节特征图。

四、FiLM介绍

FiLM来源:Ethan Perez, Florian Strub, Harm De Vries, Vincent Dumoulin, and Aaron Courville. Film: Visual reasoning with a general conditioning layer. arXiv preprint arXiv:1709.07871, 2017.

不同的r,β组合能够以多种方式调节单个特征图F

i是指第i个输入,c是指第c个输出feature map,x是输入,γ和β是通过函数f,h获得的参数

γ和β是仿射变换(affine transformation)的系数,F是BN层的输出,经过FiLM层进行变换输出给ReLU层。

Modulated Variational auto-Encoders for many-to-many musical timbre transfer论文阅读相关推荐

  1. 【人工智能概论】 变分自编码器(Variational Auto Encoder , VAE)

    [人工智能概论] 变分自编码器(Variational Auto Encoder , VAE) 文章目录 [人工智能概论] 变分自编码器(Variational Auto Encoder , VAE) ...

  2. 论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》

    论文阅读--<Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLA ...

  3. 【论文阅读-3】生成模型——变分自编码器(Variational Auto-Encoder,VAE)

    [论文阅读]生成模型--变分自编码器 1. VAE设计思路:从PCA到VAE 1.1 PCA 1.2 自编码器(Auto-Encoder, AE) 1.3 从AE到VAE 2. VAE模型框架 2.1 ...

  4. Auto Encoder(AE),Denoising Auto Encoder(DAE), Variational Auto Encoder(VAE) 区别

    文章主要内容参考李宏毅老师的机器学习课程:https://www.bilibili.com/video/BV1Wv411h7kN?p=70 Auto Encoder: 是什么?有什么用? Auto E ...

  5. 【VAE学习笔记】全面通透地理解VAE(Variational Auto Encoder)

    完整笔记:http://www.gwylab.com/note-vae.html 李宏毅老师的教程视频:https://www.bilibili.com/video/av15889450/?p=33 ...

  6. 三维目标检测论文阅读:PointPillars: Fast Encoders for Object Detection from Point Clouds

    PointPillars: Fast Encoders for Object Detection from Point Clouds code ID: https://github.com/nuton ...

  7. 论文阅读“Graph Clustering via Variational Graph Embedding”(PR2022)

    论文标题 Graph Clustering via Variational Graph Embedding 论文作者.链接 作者:Lin Guo, Qun Dai 链接:https://www.sci ...

  8. 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目:Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接:https://a ...

  9. Conditional Structure Generation throughGraph Variational Generative Adversarial Nets 论文阅读

    目标 基于语义条件生成图 (1)基于条件生成尽可能相似的图. (2)有条件的生成新的图. 解决的问题 (1)基于语义有条件的生成图 (2)如何处理图在生成过程中的顺序的问题 解决问题的方法 (1)提出 ...

最新文章

  1. 游戏行业两大核心问题:数据挖掘与安全
  2. Java基础:String类
  3. 辗转相除法(欧几里得算法)求 最大公约数与最小公倍数+推论与证明。
  4. 不停机与停机更新_Istio的零停机滚动更新
  5. java中重新加载指定文件_java-更改后重新加载属性文件
  6. 在艰苦年代,买不起万用表,怎么测量电路电压?
  7. spring-102-spring全注解快速实现事务
  8. 云小课|大数据时代的隐私利器-GaussDB(DWS)数据脱敏
  9. (36)VHDL实现或非门型RS触发器
  10. Goods:查询某个用户的购物车条目以及添加购物车条目
  11. 微型计算机的工作过程是执行程序过程吗,微型计算机的工作过程和主要性能指标...
  12. 计算机录屏幕和声音的软件是什么,哪个录屏软件可以录内部声音?分享开启与调节的方法...
  13. 电商后台之【商品管理系统】
  14. 谷歌浏览器flash插件离线下载,最新版
  15. 计算机exsl表f4代表锁定,Excel中F4技巧,相对引用、绝对引用和混合引用
  16. 《当程序员的那些狗日日子》(四十)繁杂的需求
  17. 虚拟机装vpn,主机通过虚拟机的vpn代理实现vpn共享
  18. jzoj 1307. Jail
  19. 整数n分解成素数乘积c语言,关于几种求素数的方法(C语言描述)
  20. 清华大学出版社计算机图书出版,请联系我

热门文章

  1. 安装系统服务器部署,部署服务器的安装及配置
  2. 响应支付宝宣布的刷脸支付商业化
  3. Unity3D射击类游戏制作第五节--玩家角色-武器
  4. Python数据可视化(三)绘制统计图形大全
  5. Event log的各 TAG流程分析
  6. 带你了解Java高级编程-----多线程
  7. 深信服android面试题,2017年深信服Android开发岗位笔试面试总结
  8. C++成员初始化列表
  9. 【算法】二叉树的先序遍历
  10. Win10解决自带查看照片软件的闪退问题