声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 低调奋进 TTS 开源数据 低调奋进。如转载,请标明出处。

欢迎关注微信公众号:低调奋进


目录

1   标贝

2  希尔贝壳

3  DiDiSpeech

4  LJ speech Dataset

5  VCTK

6  LibriTTS

7  CSS10

8 Hi-Fi TTS


语音合成系统的训练需要大量高质量精标语料库,这给很多研究人员带来诸多不便。本篇文章主旨为整理目前开源的语音语料,便于相关从业者使用。首先,我们需要为这些为开源数据做贡献的个人、公司或者组织表达敬意,有了这些开源的数据,才能促进语音合成的发展。

我把个人搜集的语音合成、语音识别和噪声数据整理到个人的网站,有兴趣的研究者可以搜藏  低调奋进

本文章对开源的语音合成数据的选取的标准:音频的质量较高,语料库包含音频和对应的标注信息文件。


标贝

标贝(北京)科技有限公司(简称“标贝科技”)是一家专注智能语音交互和AI数据服务的人工智能公司,为AI领域提供各种高质量的训练语料和技术方案。标贝开源了一万句的女生音库,详细信息如下:

数据内容:中文标准女声语音库数据

录音语料:综合语料样本量;音节音子的数量、类型、音调、音连以及韵律等进行覆盖。

有效时长:约12小时

平均字数:16字

语言类型:标准普通话

发音人:女;20-30岁;声音积极知性

录音环境:声音采集环境为专业录音棚环境:1)录音棚符合专业音库录制标准;2)录音环境和设备自始至终保持不变;3)录音环境的信噪比不低于35dB。

录制工具:专业录音设备及录音软件

采样格式:无压缩PCM WAV格式,采样率为48KHz、16bit

标注内容:音字校对、韵律标注、中文声韵母边界切分

标注格式:文本标注为.txt格式文档;音节音素边界切分文件为.interval格式

质量标准:1. 语音文件为48k 16bit wav格式,音色、音量、语速一致,无漂零无截幅;2.标注文件字准率不低于99.8%;3.音素边界错误大于10ms的比例小于1%;音节边界准确率大于98%.

存储方式:FTP存储

文件格式:音频文件:WAV 文本标注文件:TXT 边界标注文件:INTERVAL

版权所有者:标贝(北京)科技有限公司

想使用该数据的用户请访问链接

开源数据产品 - 标贝科技|智能语音交互领导者


Aishell  希尔贝壳

北京希尔贝壳科技有限公司成立于2017年,是一家专注人工智能大数据和技术服务的创新公司。本次开源的中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)数据参数如下:

想使用该数据的用户请访问

openslr.org


DiDiSpeech

DidiSpeech是一个针对中文个性化语音合成任务的大规模数据库。该数据库提供了由超过6000名说话人录制的近800小时的语音数据。此次第一批开放数据为500人,时长60余小时的语音数据。

数据库中所有的音频均由说话人使用手机在安静环境中录制,具有较高的语音质量。同时,数据库中的说话人在性别、年龄以及地域等方面分布均匀,具有充足的多样性。在录制文本的设计上,数据库分别设计了平行文本与非平行文本,以确保在音色转换、多说话人语音合成等任务上数据的高度可用。此外,所有录制文本提供了注音标注。数据特点如下图。

该数据需要申请,所以想使用的用户可以申请(吐槽一下,申请那么麻烦,就不能学习一下希尔贝壳吗,这很不open,即想**,又想立**!太麻烦我就没申请)

盖亚开放数据计划


LJ speech Dataset

本音库为一位英语女生说话人,一共13100条数据,共24小时。音频参数为16bit, 22khz。具体的参数如下:

Total Clips

13,100

Total Words

225,715

Total Characters

1,308,678

Total Duration

23:55:17

Mean Clip Duration

6.57 sec

Min Clip Duration

1.11 sec

Max Clip Duration

10.10 sec

Mean Words per Clip

17.23

Distinct Words

13,821

想使用该数据的用户请访问

https://keithito.com/LJ-Speech-Dataset/


VCTK

本音库为多说话人英语语料,该音库有不同口音的109位英语发音人,每位发音人大约400句话,其内容主要来自报纸,彩虹段落和语音口音档案中使用的启发段落。所有音频记录为16bit,48khz。

想访问该数据的用户请访问

SUPERSEDED - CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit


LibriTTS

LibriTTS是多说话人英语语料,大约有585小时,根据音频质量分为好几个子集,用户可以根据需要进行选择使用,(音质不是太高,可以用于speaker encoder训练使用)具体参数如下

想访问该数据的用户请访问

openslr.org


CSS10

数据提供了德语,希腊语,西班牙语,法语,中文,日语,俄罗斯,芬兰,匈牙利语,荷兰语等10种语言,(音质不是太高),具体的参数如下:

想访问该数据的用户请访问

https://github.com/Kyubyong/css10


HI-Fi TTS

为促进tts的multi-speaker的研究,对LibriVox进行处理,获取11speakers的300小时的训练语料,具体文章链接

https://arxiv.org/pdf/2104.01497.pdf

数据下载

https://www.openslr.org/109/

其它的语音识别,语音合成等开源数据可参考道友整理的数据库

低调奋进

GitHub - coqui-ai/open-speech-corpora:

语音合成(speech synthesis)方向四:开源中文和英文训练语料库open speech corpus相关推荐

  1. 自己收集整理的微软错误代码大全(中文和英文)

    自己收集整理的微软错误代码大全,分别为中文和英文部分,供广大软件开发人员共勉.                  微软错误代码 2.1  中文 0 操作成功完成. 1 功能错误. 2 系统找不到指定的 ...

  2. php判断中文字符长度,JavaScript_JS判断字符串长度的5个方法(区分中文和英文),目的:计算字符串长度(英文占 - phpStudy...

    JS判断字符串长度的5个方法(区分中文和英文) 目的:计算字符串长度(英文占1个字符,中文汉字占2个字符) 方法一: String.prototype.gblen = function() { var ...

  3. esp32使用MicroPython驱动oled屏显示中文和英文

    文章目录 esp32使用MicroPython驱动oled屏显示中文和英文 介绍 安装 特点 开源 硬件连接 API 示例 显示英文字符 显示汉字 参考链接 esp32使用MicroPython驱动o ...

  4. JS-只能输入中文和英文

    <span style="font-family:KaiTi_GB2312;">转自:<a target=_blank href="http://www ...

  5. JS正则验证输入框姓名只能输入中文和英文

    js只包含中文和英文 name: [{required: true,message: '请输入姓名',trigger: 'blur'},{pattern: /^[a-zA-Z\u4e00-\u9fa5 ...

  6. 验证中文和英文姓名 正则表达式

    出处:https://blog.csdn.net/kekekeqi/article/details/80881718 参考上面链接文章,以访丢失,再次粘贴一次 ^([\u4e00-\u9fa5]{2, ...

  7. 【HTML】关于height值设置和显示不同的原因以及font-size对象为中文和英文的区别

    关于height值设置和显示不同的原因 height: 100px; CSS中把高度设置为100px,但是实际测量发现高度为125px 这个是因为:笔记本默认显示大小为125%,所以100的125%就 ...

  8. date日期格式中文和英文显示

    date日期格式中文和英文显示 ##背景 由于日志文件里面输出的日期格式是'24-Dec-2019'这样的,但是在写脚本获取日期的时候,一直显示 '24-12月-2019'这样的格式导致匹配不到相应日 ...

  9. python正则匹配空格+数字+空格_如何批量添加中文和英文数字之间的空格?用正则表达式吧...

    1.中文与英文数字混合使用,排版有规范 写作中,我们经常遇到以下中文与英文.数字混用的情况. 我自学python编程,是在xue.cn上进行的.时耗方面,基础功仅需50多小时,加上很多实战,包括初步运 ...

最新文章

  1. 两张照片重叠处半透明_全面解读超焦距,让你的风景照片更锐更清晰
  2. Ubuntu、CentOS 解决docker命令权限问题(sudo)
  3. java io使用哪些设计模式_JAVA IO中的设计模式
  4. 计算机二本生不学编程还能干什么6,不建议二本考生报考的6个专业,除非真的感兴趣!...
  5. ps图片拖不进去_PS教学:你的logo还不够高大上?7步教做出黄色金属质感logo
  6. java找不到数据库的表_GreenDao:no such table 找不到表的终极解决方案!
  7. [转]WCF RIA Services
  8. 直播带货还有机会吗?
  9. c++ DLL-DEF-LIB
  10. LaTeX tabular表格环境与命令
  11. 计算机和未来汽车有联系吗,汽车的未来是会奔跑的计算机?
  12. curl的HTTP参数速查表
  13. curl 访问 IPv6 url
  14. 基于matlab 非局部均值(NLM)滤波图像去噪
  15. 测试工程师-入门指南
  16. 用SQL语句更改数据库名
  17. 2022年恒生指数研究报告
  18. 在ubuntu上安装像金山词霸的词典。
  19. 独立之精神,自由之思想
  20. 7-237 组合数的和

热门文章

  1. 服务器采购项目实施方案
  2. squeeze()和unsqueeze()的使用
  3. STM32使用模拟I2C读取AS5600(深入讲解:带波形图)
  4. 《棒球动漫》:无愧的青春·棒球1号位
  5. Python常见异常及简单处理
  6. 计算机windows7更新失败,Win7自动更新失败开不了机怎么办?
  7. java 观察者设计模式(十六)
  8. 杰伦亲友团组团卖咖啡?哎哟,不错哦~
  9. 集合遍历python_Python 集合遍历
  10. 两个ftp服务器之间的文件传输,FTP服务器之间传输文件