作者:
单位:
会议:

文章目录

  • abstract
  • introduction
  • Related Work

abstract

风格迁移的事情一直没做好主要有两个原因:(1)单条语音中得到的style embedding很难实现任意文本的细粒度风格控制;(2)style embedding中的content/text, prosody, and speaker timbre高度耦合,因此想要独立的控制其中一个部分很难。

introduction

风格迁移的意义:传统的风格迁移是让说话人录制多种风格的据用于合成,但是有的场景下没有说话人多种风格的数据(或者说话人无法录制指定风格的数据), cross-speaker style transfer就非常重要了。
speaking style transfer分成:

  • prosody transfer:txt-paired reference speech拿到细粒度的embedding,但是问题是真实场景中的pair数据(reference speech的文本和要合成的文本是一致的)很难获得;
  • style transfer:从reference speech中拿到reference embedding,用于代表reference speech的风格,然后控制语音的合成。但是,reference embedding中混合有content和timbre的信息。而且,风格很多是由局部的信息表现的,但是提供的是一个global embedding,因此很难还原细粒度的风格。

Related Work

  • prosody transfer:本方法是基于prosody bottleneck sub-network得到的,不是来自于reference speech。
  • style transfer:之前的方法更多是intra-speaker的风格迁移,本方法实现了保存source speech(另一个说话人)phn-level prosody,和target speaker的音色。比之前的所有方法路鲁棒性更强,更加细粒度。

Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis相关推荐

  1. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. 可逆网络风格迁移-解决内容泄漏问题 [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows

    [CVPR 2021] ArtFlow: Unbiased Image Style Transfer via Reversible Neural Flows Jie An1∗   Siyu Huang ...

  3. AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解

    0. Abstract 非并行的多对多语音转换以及零语音转换仍然是未开发的领域.诸如对抗性网络(GAN)和条件变量自动编码器(CVAE)之类的深度样式转换算法已被用作该领域的新解决方案.但是,GAN训 ...

  4. GST--Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

    和这篇文章是前后两天出来的 <Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron& ...

  5. 论文阅读 - AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss

    文章目录 1 概述 2 模型架构 3 模块解析 3.1 获取梅尔频谱 3.2 speaker encoder 3.3 AutoVC 3.4 Vocoder 4 关键部分 参考资料 1 概述 voice ...

  6. Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset

    会议:icassp 2021 作者:Kun Zhou,lihaizhou 文章目录 abstract 1. introduction 2. Analysis of Deep Emotional Fea ...

  7. [Style Transfer]——Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer

    Joint Bilateral Learning for Real-time Universal Photorealistic Style Transfer 基于联合双边学习的通用写实风格转换
 fr ...

  8. 吴恩达老师深度学习视频课笔记:神经风格迁移(neural style transfer)

            什么是神经风格迁移(neural style transfer):如下图,Content为原始拍摄的图像,Style为一种风格图像.如果用Style来重新创造Content照片,神经风 ...

  9. 深度摄影风格转换--Deep Photo Style Transfer

    Deep Photo Style Transfer https://arxiv.org/abs/1703.07511 Code: https://github.com/luanfujun/deep-p ...

  10. AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss代码调试过程

    论文: AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 代码实现参考:https://github.com/peis ...

最新文章

  1. 智办事2.0APP全新发布,不可错过的3个亮点!
  2. 图像降噪算法——Variance Stabilizing Transform / Generalization Anscombe Transform算法
  3. 数据结构-单链表实现
  4. “约见”面试官系列之常见面试题之第九十九篇之router和route(建议收藏)
  5. MVP模式在Android项目中的使用
  6. 计算机导论python知识点_如何系统地自学 Python?
  7. 平面设计素材|现代色彩风格的海报设计
  8. 10.leetcode83-Remove Diplicates from Sorted List
  9. 我理解的17种C#写的Hello World程序
  10. 倍赛BasicFinder SaaS数据标注工具解决6个实操问题
  11. 史上最全 | 室外大规模3D检测数据集汇总
  12. 户外运动手持GPS设备常识汇总
  13. 基本内置类型 声明与定义 static与entern const auto register volatile
  14. 内核SIP ALG学习指引和基本实现原理(分析BCM方案实现)
  15. 产品设计- 需求分析
  16. Oracle EBS 值层次结构查询SQL
  17. 沙特阿美以246亿元收购荣盛石化10%股份,还将在中国东北建设大型炼化一体化项目...
  18. ubuntu20 从wine安装到微信3的使用(解决微信乱码、无法输入)
  19. Kafka之ISR机制的理解
  20. taro tabBar的设置,设置tabbar的文字,设置tabbar的图标

热门文章

  1. photoshop2022更新,新版PS新增了哪些功能Mac/win
  2. 【Office】Word空格无法添加下划线
  3. Android 最常用的设计模式四 安卓源码分析——模板方法(Mould)
  4. 零基础程序员自学编程的6种方法,你知道吗?
  5. epcs1s是epcs1系列的么_网络商城分销EPCS1SI8N【长期合作】
  6. Java基础内容整理(一)
  7. Marlin固件学习总结(一)
  8. ubuntu20.04下编译仿真智能车racecar的错误解决汇总
  9. PAT|1147 Heaps(最大堆、最小堆、二叉树的遍历)
  10. 微信公众号软件安装管家所有软件插件打包