Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

作者：
单位：
会议：

文章目录

abstract
introduction
Related Work

abstract

风格迁移的事情一直没做好主要有两个原因：（1）单条语音中得到的style embedding很难实现任意文本的细粒度风格控制；（2）style embedding中的content/text, prosody, and speaker timbre高度耦合，因此想要独立的控制其中一个部分很难。

introduction

风格迁移的意义：传统的风格迁移是让说话人录制多种风格的据用于合成，但是有的场景下没有说话人多种风格的数据（或者说话人无法录制指定风格的数据）， cross-speaker style transfer就非常重要了。
speaking style transfer分成：

prosody transfer：txt-paired reference speech拿到细粒度的embedding，但是问题是真实场景中的pair数据（reference speech的文本和要合成的文本是一致的）很难获得；
style transfer：从reference speech中拿到reference embedding，用于代表reference speech的风格，然后控制语音的合成。但是，reference embedding中混合有content和timbre的信息。而且，风格很多是由局部的信息表现的，但是提供的是一个global embedding，因此很难还原细粒度的风格。

Related Work

prosody transfer：本方法是基于prosody bottleneck sub-network得到的，不是来自于reference speech。
style transfer：之前的方法更多是intra-speaker的风格迁移，本方法实现了保存source speech（另一个说话人）phn-level prosody，和target speaker的音色。比之前的所有方法路鲁棒性更强，更加细粒度。

Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis相关推荐

语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
可逆网络风格迁移-解决内容泄漏问题 [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows
[CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows Jie An1∗ Siyu Huang ...
AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解
0. Abstract 非并行的多对多语音转换以及零语音转换仍然是未开发的领域.诸如对抗性网络(GAN)和条件变量自动编码器(CVAE)之类的深度样式转换算法已被用作该领域的新解决方案.但是,GAN训 ...
GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
文章目录 1 概述 2 模型架构 3 模块解析 3.1 获取梅尔频谱 3.2 speaker encoder 3.3 AutoVC 3.4 Vocoder 4 关键部分参考资料 1 概述 voice ...
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset
会议:icassp 2021 作者:Kun Zhou,lihaizhou 文章目录 abstract 1. introduction 2. Analysis of Deep Emotional Fea ...
[Style Transfer]——Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer
Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer 基于联合双边学习的通用写实风格转换  fr ...
吴恩达老师深度学习视频课笔记：神经风格迁移(neural style transfer)
什么是神经风格迁移(neural style transfer):如下图,Content为原始拍摄的图像,Style为一种风格图像.如果用Style来重新创造Content照片,神经风 ...
深度摄影风格转换--Deep Photo Style Transfer
Deep Photo Style Transfer https://arxiv.org/abs/1703.07511 Code: https://github.com/luanfujun/deep-p ...
AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss代码调试过程
论文: AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 代码实现参考:https://github.com/peis ...