Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis
作者:
单位:
会议:
文章目录
- abstract
- introduction
- Related Work
abstract
风格迁移的事情一直没做好主要有两个原因:(1)单条语音中得到的style embedding很难实现任意文本的细粒度风格控制;(2)style embedding中的content/text, prosody, and speaker timbre高度耦合,因此想要独立的控制其中一个部分很难。
introduction
风格迁移的意义:传统的风格迁移是让说话人录制多种风格的据用于合成,但是有的场景下没有说话人多种风格的数据(或者说话人无法录制指定风格的数据), cross-speaker style transfer就非常重要了。
speaking style transfer分成:
- prosody transfer:txt-paired reference speech拿到细粒度的embedding,但是问题是真实场景中的pair数据(reference speech的文本和要合成的文本是一致的)很难获得;
- style transfer:从reference speech中拿到reference embedding,用于代表reference speech的风格,然后控制语音的合成。但是,reference embedding中混合有content和timbre的信息。而且,风格很多是由局部的信息表现的,但是提供的是一个global embedding,因此很难还原细粒度的风格。
Related Work
- prosody transfer:本方法是基于prosody bottleneck sub-network得到的,不是来自于reference speech。
- style transfer:之前的方法更多是intra-speaker的风格迁移,本方法实现了保存source speech(另一个说话人)phn-level prosody,和target speaker的音色。比之前的所有方法路鲁棒性更强,更加细粒度。
Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis相关推荐
- 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 可逆网络风格迁移-解决内容泄漏问题 [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows
[CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows Jie An1∗ Siyu Huang ...
- AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解
0. Abstract 非并行的多对多语音转换以及零语音转换仍然是未开发的领域.诸如对抗性网络(GAN)和条件变量自动编码器(CVAE)之类的深度样式转换算法已被用作该领域的新解决方案.但是,GAN训 ...
- GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis
和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...
- 论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss
文章目录 1 概述 2 模型架构 3 模块解析 3.1 获取梅尔频谱 3.2 speaker encoder 3.3 AutoVC 3.4 Vocoder 4 关键部分 参考资料 1 概述 voice ...
- Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset
会议:icassp 2021 作者:Kun Zhou,lihaizhou 文章目录 abstract 1. introduction 2. Analysis of Deep Emotional Fea ...
- [Style Transfer]——Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer
Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer 基于联合双边学习的通用写实风格转换 fr ...
- 吴恩达老师深度学习视频课笔记:神经风格迁移(neural style transfer)
什么是神经风格迁移(neural style transfer):如下图,Content为原始拍摄的图像,Style为一种风格图像.如果用Style来重新创造Content照片,神经风 ...
- 深度摄影风格转换--Deep Photo Style Transfer
Deep Photo Style Transfer https://arxiv.org/abs/1703.07511 Code: https://github.com/luanfujun/deep-p ...
- AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss代码调试过程
论文: AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 代码实现参考:https://github.com/peis ...
最新文章
- 智办事2.0APP全新发布,不可错过的3个亮点!
- 图像降噪算法——Variance Stabilizing Transform / Generalization Anscombe Transform算法
- 数据结构-单链表实现
- “约见”面试官系列之常见面试题之第九十九篇之router和route(建议收藏)
- MVP模式在Android项目中的使用
- 计算机导论python知识点_如何系统地自学 Python?
- 平面设计素材|现代色彩风格的海报设计
- 10.leetcode83-Remove Diplicates from Sorted List
- 我理解的17种C#写的Hello World程序
- 倍赛BasicFinder SaaS数据标注工具解决6个实操问题
- 史上最全 | 室外大规模3D检测数据集汇总
- 户外运动手持GPS设备常识汇总
- 基本内置类型 声明与定义 static与entern const auto register volatile
- 内核SIP ALG学习指引和基本实现原理(分析BCM方案实现)
- 产品设计- 需求分析
- Oracle EBS 值层次结构查询SQL
- 沙特阿美以246亿元收购荣盛石化10%股份,还将在中国东北建设大型炼化一体化项目...
- ubuntu20 从wine安装到微信3的使用(解决微信乱码、无法输入)
- Kafka之ISR机制的理解
- taro tabBar的设置,设置tabbar的文字,设置tabbar的图标