声纹识别常用数据集简介
TIMIT
aidatatang_1,505zh
数据介绍:
【1,505小时 中文普通话语音数据集】数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。(仅支持学术研究,未经允许禁止商用)
数据集详情:
格式 | 16kHz 16bit,wav,单声道 |
环境 | 安静的室内,噪音不影响语音识别 |
内容 | 30万条口语化句子 |
人员 |
6,408 人 男性 2,999 人,女性 3,301 人 ≤20 岁 1,481 人,21~30 岁 4,412 人,31~40 岁 244 人,40 岁以上 163 人 录音人员分布于广东、福建、山东、江苏、北京、湖南、江西、香港、澳门等 34个省级行政区域 |
设备 | 安卓:iOS=9:1 |
语音 | 普通话;有口音的普通话 |
应用场景 |
语音识别 机器翻译 声纹识别 |
准确率 | 句标注准确率不低于98% |
aidatatang_200zh
数据介绍:
aidatatang_200zh 是1,505小时中文普通话语音数据的一部分。
数据集详情:
- 包含200小时,16kHz,16bits 的音频数据,其中绝大部分都是手机记录的数据
- 来自中国不同的重点区域600个的说话人被邀请参加录制
- 句标注准确率不低于98%
- 录音在安静的室内环境中进行
- 所述数据库以 7:1:2 的比例分为训练集,验证集和测试集
- 像音频数据和说话人信息等详细信息保存在元数据文件中
- 也提供了Segmented transcripts
数据堂:AI数据开源计划 1,505小时中文普通话语音数据
CSDN:
AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库
最大规模开源中文语音数据集 — aidatatang_1505zh及其语音识别基准实验详解
论文:《AIDATATANG_1505ZH: A Large-Scale Chinese Speech
Corpus for Deep Learning(AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库)》
开源代码:
KALDI:https://github.com/kaldi-asr/kaldi/tree/master/egs/aidatatang_200zh
训练:
基于aidatatang_200zh脚本训练的声音识别
声纹识别常用数据集简介相关推荐
- 声纹识别(说话人识别)技术
说话人识别(Speaker Recognition,SR),又称声纹识别(Voiceprint Recognition,VPR),顾名思义,即通过声音来识别出来"谁在说话",是根据 ...
- [深度学习概念]·声纹识别技术简介
声纹识别技术简介 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.从直觉上来说,声纹虽然不像人脸.指纹的个体差异那样直观可见,但由于每个人的声道.口腔和鼻腔也具有个体的差异性,因此反映 ...
- 【工程】深度说话人的应用及声纹识别系统的制作 (附完整代码与数据集)
说话人识别系统 (又称声纹识别系统) 论文: 本博客是基于百度的论文Deep Speaker: an End-to-End Neural Speaker Embedding System 的理论上进行 ...
- 声纹识别(一)——简介
一.基本概念 声纹识别也称为说话人识别,是指根据说话人语音中个性化的特征自动识别说话人身份的一种生物识别技术.说话人的声音特征不仅与其肺部.气管.喉部.声带.咽部.鼻腔.口腔.唇部等人体发声器官相关 ...
- 声纹识别之GMM-UBM系统框架简介
在深度学习的路上,从头开始了解一下各项技术.本人是DL小白,连续记录我自己看的一些东西,大家可以互相交流. 本文参考:https://blog.csdn.net/twinkle_star1314/ar ...
- 声纹识别之说话人验证speaker verification
目录 一.speaker verification简介 二.主流方案和模型 1.Ecapa_TDNN模型 2.WavLm 三.代码实践 1.Ecapa_TDNN方案 a.模型结构 b.loss c.数 ...
- 《ASV-Subtools 声纹识别实战》课程
AI工匠学堂https://xjw.h5.xeknow.com/s/2XhsYq ASV-Subtools简介 近年来,随着深度学习的快速发展,简单易用.性能稳定.开发高效的深度学习框架越来越被科研和 ...
- 干货:NIST评测(SRE19)获胜团队声纹识别技术分析 | CSDN博文精选
作者 | xjdier 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE) ...
- 深度学习声纹识别_声纹识别:你的声音是这样被“破译”的!
节目中的比赛规则是这样的:从21位性别相同.年龄相仿.声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和人类选手,要求他们从合唱声音中识别出三名线人的声音.( ...
最新文章
- HDU2034 人见人爱A-B
- Python基础教程:正则表达式-匹配多个字符
- 扫地机器人狗毛_扫地机器人:我是清理狗毛的!不是清理狗屎的!
- React开发(247):react项目理解 学会debugger
- [十二省联考2019]字符串问题 后缀自动机 + 拓扑排序 + 最长路 + 倍增
- “云上企业”是企业面向未来的战略选择
- 微信小程序获得微信头像和昵称
- Keytool和OpenSSL生成和签发数字证书
- r语言如何下载carzip包本地安装_R语言安装R package的2种方法
- 实践系列:分销平台的技术架构
- 私有云计算机械硬盘还是固态硬盘,机械硬盘居然也限制写入量,吓得我又买一块固态硬盘...
- Windows Azure 虚机密码忘记处理
- Imagewarping变形算法研究---MLSR(Nonrigid image deformation using moving regularized least quares)
- MTL多目标学习介绍综述等
- Microsoft Store无法显示错误,真正解决!
- 解决问题:xshell6评估已过期
- QQ授权登录和微信授权登录
- 用什么软件能测试dbm信号强度,怎么查看手机信号强度?多少dbm属于正常范围
- 计算机图形学(二)输出图元_19_显示窗口重定形函数
- 刷完牛客网910道Java题目,快速总结上万字,带你扫清Java基础面试障碍