Modulated Variational auto-Encoders for many-to-many musical timbre transfer论文阅读

摘要

文中介绍了调制变分自动编码器用于多对多的音乐音色转换。首先，通过目前的域迁移技术结合特征层面的线性调表明方法的可行性。其次，通过最大平均差目标代替通用的迁移标准缓和了对GAN的需求，这允许更快、更稳定的训练以及可控制的隐空间编码器。
最终的MoVE模型可以实现多对多的乐器音色的转换以及音乐的合成，并且该结构在小数据集上训练具有有轻便、快速的特性，多域迁移时的控制也是有效的。

一、介绍

1.通过对VAE引入条件实现特定域的迁移，形成了MoVE
2.使用最大平均差目标代替判别器网络，缓和了每个域的额外对抗训练的需求。

鉴于A universal music translation需要多个decoder的缺点，文章引出了MoVE在域信息的控制下，利用一个encoder和一个decoder实现多对多的音色转换。

二、相关工作

MoVE提出的背景

1.部分权值共享的VAE将两个域的信息映射到一个公共的域表达。这个过程需要辅助的对抗分类器，这种结构只能在一对域上操作。
2.为了实现多对多的转换，有学者提出condition GAN，这可以在多个域同时训练，并能够控制生成过程。但是上述网络的作者却是在相似的域上使用上述网络，并且存在GAN的通用问题，训练困难、往往缺乏对数据的全面支持同时也并未提供以一个隐空间encoder。
3**.最近，人们提出了一种基于特征的线性调制（FiLM ）方法，通过学习网络中的条件偏差和缩放来改善条件反射。在每个中间实例规范化之后应用基于样式图像的自适应调制。**
4.因此，文章通过引入FiLM层来实现域条件化，结合一个VAE，最终实现多对多的音色转换。**此外，通过引入最大平均差目标来缓和对GAN和具体的对抗分类器的需求。**因此获得了一个无监督的轻量权重的易于训练，且带有一个通用的可控的隐空间的网络模型。

三、音乐音色转换的结构

1.one-one

主要的想法是学得两个域之间的一个共享的隐空间，根据难以处理的真实后验分布评估近似潜密度的误差，文中的假设是真实的后验分布服从高斯分布，即p(z/x)。但存在问题是，通常没有两个域之间的匹配的数据集用于优化decoder。GAN中使用的方法是利用一个判别器将生成的数据和原始的数据区分，但GAN的复杂与训练不稳定。

重建loss

本质上根据难以处理的真实后验分布评估近似潜密度的误差。

MMD loss（最小化）
文中引入了MMD代替对抗标准。在domain adaptation中，经常用到MMD来在特征学习的时候构造正则项来约束学到的表示，使得两个域上的特征尽可能相同。

循环一致loss

2.many-many

为了弥补one-to-one需要多个模型的缺点，引入了MoVE。该模型的关键是使用不同的类别条件实现不同乐器之间的转换，即条件策略的引入需要保留音高和octave的控制。FiLM generators 是根据输入的domain信息和generation control的信息为网络中的FiLM层提供相应r,β，用于调节特征图。

四、FiLM介绍

FiLM来源：Ethan Perez, Florian Strub, Harm De Vries, Vincent Dumoulin, and Aaron Courville. Film: Visual reasoning with a general conditioning layer. arXiv preprint arXiv:1709.07871, 2017.

不同的r,β组合能够以多种方式调节单个特征图F

i是指第i个输入，c是指第c个输出feature map,x是输入，γ和β是通过函数f,h获得的参数

γ和β是仿射变换(affine transformation）的系数，F是BN层的输出，经过FiLM层进行变换输出给ReLU层。