Modulated Variational auto-Encoders for many-to-many musical timbre transfer论文阅读
摘要
文中介绍了调制变分自动编码器用于多对多的音乐音色转换。首先,通过目前的域迁移技术结合特征层面的线性调表明方法的可行性。其次,通过最大平均差目标代替通用的迁移标准缓和了对GAN的需求,这允许更快、更稳定的训练以及可控制的隐空间编码器。
最终的MoVE模型可以实现多对多的乐器音色的转换以及音乐的合成,并且该结构在小数据集上训练具有有轻便、快速的特性,多域迁移时的控制也是有效的。
一、介绍
- 1.通过对VAE引入条件实现特定域的迁移,形成了MoVE
- 2.使用最大平均差目标代替判别器网络,缓和了每个域的额外对抗训练的需求。
鉴于A universal music translation需要多个decoder的缺点,文章引出了MoVE在域信息的控制下,利用一个encoder和一个decoder实现多对多的音色转换。
二、相关工作
MoVE提出的背景
- 1.部分权值共享的VAE将两个域的信息映射到一个公共的域表达。这个过程需要辅助的对抗分类器,这种结构只能在一对域上操作。
- 2.为了实现多对多的转换,有学者提出condition GAN,这可以在多个域同时训练,并能够控制生成过程。但是上述网络的作者却是在相似的域上使用上述网络,并且存在GAN的通用问题,训练困难、往往缺乏对数据的全面支持同时也并未提供以一个隐空间encoder。
- 3**.最近,人们提出了一种基于特征的线性调制(FiLM )方法,通过学习网络中的条件偏差和缩放来改善条件反射。在每个中间实例规范化之后应用基于样式图像的自适应调制。**
- 4.因此,文章通过引入FiLM层来实现域条件化,结合一个VAE,最终实现多对多的音色转换。**此外,通过引入最大平均差目标来缓和对GAN和具体的对抗分类器的需求。**因此获得了一个无监督的轻量权重的易于训练,且带有一个通用的可控的隐空间的网络模型。
三、音乐音色转换的结构
1.one-one
主要的想法是学得两个域之间的一个共享的隐空间,根据难以处理的真实后验分布评估近似潜密度的误差,文中的假设是真实的后验分布服从高斯分布,即p(z/x)。但存在问题是,通常没有两个域之间的匹配的数据集用于优化decoder。GAN中使用的方法是利用一个判别器将生成的数据和原始的数据区分,但GAN的复杂与训练不稳定。
重建loss
本质上根据难以处理的真实后验分布评估近似潜密度的误差。
MMD loss(最小化)
文中引入了MMD代替对抗标准。在domain adaptation中,经常用到MMD来在特征学习的时候构造正则项来约束学到的表示,使得两个域上的特征尽可能相同。
循环一致loss
2.many-many
为了弥补one-to-one需要多个模型的缺点,引入了MoVE。该模型的关键是使用不同的类别条件实现不同乐器之间的转换,即条件策略的引入需要保留音高和octave的控制。FiLM generators 是根据输入的domain信息和generation control的信息为网络中的FiLM层提供相应r,β,用于调节特征图。
四、FiLM介绍
FiLM来源:Ethan Perez, Florian Strub, Harm De Vries, Vincent Dumoulin, and Aaron Courville. Film: Visual reasoning with a general conditioning layer. arXiv preprint arXiv:1709.07871, 2017.
不同的r,β组合能够以多种方式调节单个特征图F
i是指第i个输入,c是指第c个输出feature map,x是输入,γ和β是通过函数f,h获得的参数
γ和β是仿射变换(affine transformation)的系数,F是BN层的输出,经过FiLM层进行变换输出给ReLU层。
Modulated Variational auto-Encoders for many-to-many musical timbre transfer论文阅读相关推荐
- 【人工智能概论】 变分自编码器(Variational Auto Encoder , VAE)
[人工智能概论] 变分自编码器(Variational Auto Encoder , VAE) 文章目录 [人工智能概论] 变分自编码器(Variational Auto Encoder , VAE) ...
- 论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》
论文阅读--<Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLA ...
- 【论文阅读-3】生成模型——变分自编码器(Variational Auto-Encoder,VAE)
[论文阅读]生成模型--变分自编码器 1. VAE设计思路:从PCA到VAE 1.1 PCA 1.2 自编码器(Auto-Encoder, AE) 1.3 从AE到VAE 2. VAE模型框架 2.1 ...
- Auto Encoder(AE),Denoising Auto Encoder(DAE), Variational Auto Encoder(VAE) 区别
文章主要内容参考李宏毅老师的机器学习课程:https://www.bilibili.com/video/BV1Wv411h7kN?p=70 Auto Encoder: 是什么?有什么用? Auto E ...
- 【VAE学习笔记】全面通透地理解VAE(Variational Auto Encoder)
完整笔记:http://www.gwylab.com/note-vae.html 李宏毅老师的教程视频:https://www.bilibili.com/video/av15889450/?p=33 ...
- 三维目标检测论文阅读:PointPillars: Fast Encoders for Object Detection from Point Clouds
PointPillars: Fast Encoders for Object Detection from Point Clouds code ID: https://github.com/nuton ...
- 论文阅读“Graph Clustering via Variational Graph Embedding”(PR2022)
论文标题 Graph Clustering via Variational Graph Embedding 论文作者.链接 作者:Lin Guo, Qun Dai 链接:https://www.sci ...
- 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey
题目:Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接:https://a ...
- Conditional Structure Generation throughGraph Variational Generative Adversarial Nets 论文阅读
目标 基于语义条件生成图 (1)基于条件生成尽可能相似的图. (2)有条件的生成新的图. 解决的问题 (1)基于语义有条件的生成图 (2)如何处理图在生成过程中的顺序的问题 解决问题的方法 (1)提出 ...
最新文章
- 游戏行业两大核心问题:数据挖掘与安全
- Java基础:String类
- 辗转相除法(欧几里得算法)求 最大公约数与最小公倍数+推论与证明。
- 不停机与停机更新_Istio的零停机滚动更新
- java中重新加载指定文件_java-更改后重新加载属性文件
- 在艰苦年代,买不起万用表,怎么测量电路电压?
- spring-102-spring全注解快速实现事务
- 云小课|大数据时代的隐私利器-GaussDB(DWS)数据脱敏
- (36)VHDL实现或非门型RS触发器
- Goods:查询某个用户的购物车条目以及添加购物车条目
- 微型计算机的工作过程是执行程序过程吗,微型计算机的工作过程和主要性能指标...
- 计算机录屏幕和声音的软件是什么,哪个录屏软件可以录内部声音?分享开启与调节的方法...
- 电商后台之【商品管理系统】
- 谷歌浏览器flash插件离线下载,最新版
- 计算机exsl表f4代表锁定,Excel中F4技巧,相对引用、绝对引用和混合引用
- 《当程序员的那些狗日日子》(四十)繁杂的需求
- 虚拟机装vpn,主机通过虚拟机的vpn代理实现vpn共享
- jzoj 1307. Jail
- 整数n分解成素数乘积c语言,关于几种求素数的方法(C语言描述)
- 清华大学出版社计算机图书出版,请联系我