本语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。

本语料比较原始数据而言,更加清晰和自然,减少了噪声的干扰,减少了因说话人说话不连贯造成的不自然。

本语料包含文本、语音和说话人3个方面的信息,可适用于多种语音相关的任务。

资源整理自网络,下载及获取见源地址:https://github.com/fighting41love/zhvoice

本语料由智浪淘沙(https://github.com/zhilangtaosha)清洗和处理。

处理方法

用python的工具模块aukit处理音频,降噪和去除静音。

pip install aukit from aukit import remove_noise, remove_silence

用python的工具模块phkit处理文本,文本正则化和汉字转拼音。

pip install phkit from phkit import text_to_sequence, pinyin

应用场景

·  用于语音克隆模型,可直接用于githup的语音克隆项目zhrtvc。

·  用于语音合成模型,用标贝开源的中文标准女声音频zhbznsyp数据集,或者筛选音质较好,和目标声音相似的说话人语音及其文本。

·  用于声码器模型,即由语音特征转为语音信号的模型。用语音数据,可结合aukit的音频转频谱。

from aukit import linear_spectrogram, mel_spectrogram, world_spectrogram

用于语音编码器模型,即把语音编码到预定维度的向量空间。

用于声纹识别模型,用语音和对应的说话人标签。

用于语音识别模型,用语音和文本,可以适当加噪声。

下载路径

百度网盘:

链接: https://pan.baidu.com/s/1uHXE2WIt0kdm_dPSej-TtA

提取码: i5b3

文件介绍

info:各个数据集的源数据信息,包含源数据出处、简介等。

text:语音语料对应的文本,包含文本、相对路径、说话人、参考拼音等信息。

sample:样本语音,每个说话人一个音频。

metadata:语料元数据,一行对应一个音频文件,每行的格式音频相对路径\t汉字文本\n。

zh*:zh开头的是语料文件,目录结构:根目录下包含metadata.csv和语音文件目录。一个说话人对应一个子目录,音频是mp3格式。metadata.csv的数据结构和metadata的一样,记录当前数据集的信息。

统计信息

character_W: 字符个数,单位:万字。包括汉字、英文字母和标点符号。

duration_H: 语音时长,单位:小时。

n_audio_per_speaker:每个说话人的音频数量。

n_minute_per_speaker:平均每个说话人的音频总时长,单位:分钟。

n_speaker:说话人个数。

sentence_W:文本数目,单位:万条。

size_MB:音频占用存储空间,单位:MB。

注意:

total是全部数据集合集的结果。

音频的采样率是16k。

往期精品内容推荐

发论文拿推荐信!伯克利教授计算机科研项目招生

想成为NLP算法工程师缺项目经验?看完这个,入职第一天即可产生价值!

自动驾驶最全基础知识、课程、论文、数据集、开源软件等资源整理分享

邱锡鹏DL经典教材-《神经网络与深度学习》免费pdf及ppt分享

22年秋招 NLP算法工程师从入门到进阶线路分享

2020年新书-《神经网络新手入门必备数学基础》免费pdf分享

NLP必备书籍-《自然语言处理手册第二版》免费pdf分享

李沐中《动手学深度学习》最新版免费分享

波士顿动力量产工业级-Spot敏捷移动机器人

最新千万级中文语音语料开源数据整理分享相关推荐

  1. 2019最新黑马传智Python人工智能大数据视频教程分享给大家

    2019最新黑马传智Python人工智能大数据视频教程分享给大家 链接:https://pan.baidu.com/s/1A2hpXWaeyMIufliaSDWygQ 提取码:bzbd

  2. dperf: 一款基于DPDK的千万级HTTP CPS的开源网络压力测试仪

    dperf是一款开源的四层负载均衡压力测试仪.它使用了DPDK与用户态TCP协议栈技术,用一台x86服务器就可以制造巨大流量:数10亿并发连接,百Gbps吞吐,千万级HTTP CPS,其性能远远超过商 ...

  3. 最新Android开源库、工具、开源项目整理分享

    热文导读 | 点击标题阅读 金九银十跳槽季如何进阶找到合适满意的工作? Android 进阶/面试 重难点 要来了!国内安卓统一推送标准将于今年3月开启测试 作者:lovesosoi 来源:https ...

  4. 10个优秀的Spring Boot开源项目整理分享

    今天为大家精选了 码云 上优秀的 Spring Boot 语言开源项目,涵盖了企业级系统框架.文件文档系统.秒杀系统.微服务化系统.后台管理系统等,分享出来供大家学校交流,希望能够给大家带来一点帮助. ...

  5. 2022年最新目标跟踪顶会论文及模型整理分享

      啥是Object Tracking(目标追踪)? 简单点,一幅画面,指定里面一个目标,比如人.动物.车.飞机等等,然后一直死死锁定这个目标,不丢.     有啥用? 相机跟踪对焦,车辆跟踪,人体. ...

  6. 阿里二面:千万级、亿级数据,如何性能优化? 教科书级 答案来了

    说在前面 在尼恩指导了几百个小伙伴的面试,在这些过程中, 非常.非常高频的一个面试题: 千万级数据,如何做性能优化? 亿级数据,如何做性能优化? 最近,有个小伙伴阿里二面,又遇到了这个问题. 其实,尼 ...

  7. 《千万级、亿级数据,如何性能优化》

    问题场景介绍 截止2021,vivo在全球已覆盖4亿多用户,服务60多个国家和地区,vivo 在菲律宾.马来.印度等国家的市场份额名列前三,在国内出货量始终保持领先地位,成功跻身2021年第三季度40 ...

  8. 基于Kersa实现的中文语音声纹识别

    原文博客:Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 本文链接:基于Kersa实现 ...

  9. 周获 4700 Star 全球疫情数据可视化系统,超轻量级中文 OCR……GitHub 一周热点速览...

    作者 | HelloGitHub-小鱼干 来源 | HelloGitHub 摘要:连着两周成绩平平的 GitHub Trending 榜,终于和三月的天气一样进入全面变暖的模式,无论是本周刚开源搭乘 ...

最新文章

  1. linux shell 数组遍历方式(非原创)
  2. Effective C# 摘录(1) - C# Language Elements
  3. OpenGL Texture Wrap Modes纹理包裹模式的实例
  4. java cpu过高排查_涨薪秘籍:JAVA项目排查cpu负载过高
  5. java虚拟机参数详解
  6. 圣诞节的整理前两周的内容4
  7. 深入探索Java工作原理:JVM,内存回收及其他
  8. 还挺好看!用命令行画思维导图;66天机器学习之旅;斯坦福CS234 强化学习课程;哈佛CS50 计算机科学导论课程;前沿论文 | ShowMeAI资讯日报
  9. 【OpenCV】58 二值图像分析—寻找最大内接圆
  10. vim学习笔记-tags用法
  11. Eli Lilly(礼来) | RPA在医疗行业的应用案例
  12. git基于master创建新分支
  13. PTA 7-2 一帮一
  14. android仿微信发布动态功能,Android GridView扩展仿微信微博发图动态添加删除图片功能.pdf...
  15. 【金融量化】深度学习在金融中的研究热点以及应用
  16. 程序员工作面试题目汇总
  17. Monster Card Game的设计与实现之客户端篇
  18. 【Spark分布式内存计算框架——Structured Streaming】2. Structured Streaming 核心设计与编程模型
  19. Java毕业设计选题推荐 SpringBoot毕设项目分享
  20. java设置打印机默认纸张_更改打印机默认纸张尺寸 (Change printer default paper size)...

热门文章

  1. QC部分浏览器不支持、不能加载组件
  2. 使用ga算法解决背包问题_我如何使用算法解决现实生活中的手提背包的背包问题
  3. java英文介绍范文_java面试英文自我介绍范文
  4. Lucene 查询中的距离查询(proximity query)
  5. i技术会 | 如何用AI挖掘和生成视频广告点位
  6. SCAPE: shape completion and animation of people
  7. 个人信用报告内容组成和解读(五)信贷交易信息明细
  8. 机场安检装X失败的大姐:国外是这么安检的!
  9. 软考高级 真题 2009年上半年 信息系统项目管理师 综合知识
  10. python中将一组数分成以N个数字为一组实例