(以下内容搬运自 PaddleSpeech)

实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人语料混合方式、finetune方式。

示例句子:

大家好,我是parrot虚拟老师,我们来读一首诗,我与春风皆过客, I and the spring breeze are passing by,你携秋水揽星河, you take the autumn water to take the galaxy。

(一)单发音人方式(有数据才行!)

使用同一发音人中文、英文语料,这种方式效果最佳,听听效果:

中英文女:

播放音频

中英文男:

播放音频

(二)多发音人语料混合方式(音色串了!)

有开源数据中文baker、英文ljspeech数据,将数据混合成单发音人训练出一个模型,能听出一句话中文是baker、英文是ljspecch两种音色,我想音色差别不大的时候可以选用这种方式,听听效果:

播放音频

(三)finetune方式(音色一致了!)

在第一种中英文预训练模型上进行finetune,实现特色语音、动漫语音、方言,效果如下:

特色普通话

Baker说中英文:

播放音频

抖音鸡汤女说中英文:

播放音频

动漫

蜡笔小新说中英文:

播放音频

海绵宝宝说中英文:

播放音频

方言

东北话:

播放音频

广西话:

播放音频

河南话:

播放音频

四川话:

播放音频

天津话:

播放音频

粤语:

播放音频

后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证,这样就不需要单发音人的中英文预训练模型了,只需要开源数据就OK了。

×××××××××××PaddleTTS实现起来还是很方便的,感谢各位大佬…××××××××××

FAQ

Q: 有开源方言可直接调用的接口吗?
A: 暂时没看到有免费的

Q: 大佬你好,上述数据是网上爬虫整理的,还是采购的,方言效果不错,如果是采购的话请问哪里可以获取?
A: 整理的呢,主要验证无英文语料的方言发音人的英文发音音色和韵律是什么效果

更多内容请参考原 Disscussion 链接。

P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

PaddleSpeech 实现多种卡通音色和方言的中英文混合 TTS相关推荐

  1. 百度输入法开启AI时代,突破方言、中英文混合识别难题

    电脑在我国普及,第一个急需要解决的问题就是,如何将汉字输入到电脑中,于是产生了汉字输入法.汉字输入法发展至今主流的方式大致可以分为,笔画.拼音.五笔.手写.语音.云输入法. 当前国内输入法存在很多问题 ...

  2. 自然语言处理相关工具调研

    自然语言处理基础工具调研 一 词典 HowNet HowNet(知网情感词典)是董振东先生.董强先生父子毕三十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念. 该词典主要分为中文和 ...

  3. iot物联网_物联网(IoT)简介

    iot物联网 Smart Homes 智能家居 How our life in the future may look like? Let us look at one possible scenar ...

  4. 三点几嚟,饮茶先啦!PaddleSpeech发布全流程粤语语音合成

    PaddleSpeech 是飞桨开源语音模型库,其提供了一套完整的语音识别.语音合成.声音分类和说话人识别等多个任务的解决方案.近日,PaddleSpeech 迎来了重要更新--r1.4.0版本.在这 ...

  5. ​清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码...

    近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...

  6. springcontext.xml 中方言是红色的_12种方言都能听懂!讯飞智能录音笔A1评测:小如钥匙坠+复古磁带造型...

    一.前言: 当录音笔不再是一支"笔" 说起录音笔,大家往往脑海中第一时间浮现的是修长的笔状.长条状造型,当然还少不了一块液晶显示屏,处处显示着专业的味道.最近,科大讯飞则推出了一款 ...

  7. ​清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码

    近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...

  8. 【飞桨PaddleSpeech语音技术课程】— 一句话语音合成全流程实践

    (以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) 一句话语音合成全流程实践 点击播放视频 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech ...

  9. 《飞桨PaddleSpeech语音技术课程》一句话语音合成全流程实践

    一句话语音合成全流程实践 PaddleSpeech r1.2.0 发新内容 1 声音克隆介绍 & 语音合成基本概念回顾 语音合成(Speech Sysnthesis),又称文本转语音(Text ...

最新文章

  1. IDEA设置运行tomcat即生成war包
  2. 风云榜查询名次 接单者与公司对应的数据库语句
  3. 基于ArcGIS API for JavaScript加载百度各种类型切片地图
  4. java sync和async区别_GCD中串行、并行与async、sync的区别
  5. Linux面试题集锦,测测你的水平(答案)四
  6. 腾讯地图判断点是否在区域内
  7. 前端学习(595):使用network进行详细分析
  8. 【转】android多分辨率适配
  9. Verilog实现2分频实例
  10. iPhone开发视频教程 Objective-C部分 (51课时)
  11. 基于 Linux 的文件操作 网络编程的最后一环
  12. [转]破解无线路由器密码
  13. 瘦身长腿、日新小清新治愈系、lomo效果
  14. p标签中的文字垂直居中
  15. URAL 2037 Richness of binary words (回文子串,找规律)
  16. 2022世界杯期间,独立站卖家如何借势营销?
  17. 多CPU ,多核和进程以及多线程之间的关系
  18. arccotx图像在matlab,arccotx图像(cotx的定义域和图像)
  19. 搜索和遍历在图中有何区别和联系?
  20. 【一起入门MachineLearning】中科院机器学习第*课-支持向量机SVM

热门文章

  1. adduser 添加用户和mount 硬盘
  2. Python实现交互窗口功能(Tkinter;面向对象的图形化用户界面(GUI)模块)(一)
  3. 【网盘搜索小程序完整源码】微信QQ双端通用
  4. 传统调度(min-min,max-min,suffrage,MCT,启发式算法)
  5. 弱监督语义分割论文阅读
  6. 利用CNN对股票“图片”进行涨跌分类——一次尝试【附源码】
  7. html5+css3面试题合集(一)
  8. 主成分分析与奇异值分解
  9. 施瓦辛格将与拉里·埃利森在OOW同台“飚戏”
  10. ubuntu NFS共享