Kaldi-Timit 训练

背景

这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。

Timit数据介绍

制作方
- Timit是几个研究机构联合收集的，文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成；语音录制在TI完成，转录(包括维护和校验)在MIT完成。

Corpus Speaker Distribution

Timit一共包含6300个句子，由来自美国8个主要州的630个人，每个人说10句话得到，详细情况如下表：

州号(dr)	男性人数(#Male)	女性人数(#Female)	总人数(Total)
dr1 (New England)	31(63%)	18(37%)	49(8%)
dr2 (Northern)	71(70%)	31(30%)	102(16%)
dr3 (North Midland)	79(67%)	23(23%)	102(16%)
dr4 (South Midland)	69(69%)	31(31%)	100(16%)
dr5 (Southern)	62(63%)	36(37%)	98(16%)
dr6 (New Yourk City)	30(65%)	16(35%)	46(7%)
dr7 (Western)	74(74%)	26(26%)	100(16%)
dr8 (Army Brat)	22(67%)	11(33%)	33(5%)
total	438(70%)	192(30%)	630(100%)

Corpus Text Material

详细情况如下表：

句子类型(Sentence Type)	句子数量(#Sentences)	说话人数(#Speakers)	总人数(Total)	句/人(#Sentences/Speaker)
方言(SA)	2	630	1260	2
音素紧凑型(SX)	450	7	3150	5
音素分散型(SI)	1890	1	1890	3
总数(Total)	2342	-	6300	10

SA类型主要针对同一音素在不同方言中的发音；SX类型的目的在于尽可能的覆盖多的音素对；SI类型是从Brown Corpus中选取的，目的在于增加句子的多样性。

Training/Test Subdivision

核心测试集包含24个speaker，每个州2个男性1个女性，每个人3句SI型句子和5句SX型句子；完整测试集包含168个人，没人8句SX型句子。详细情况如下表：

测试集类型	人数	句子/人	句子数
核心测试集	24	8(3SI + 5SX)	192
完整测试集	168	8(SX)	1344

文件类型
.wav : SPHERS 格式语音文件
.txt : 音频转录文本
.wrd : 带有时间标记的转录文件
.phn : 带有时间标记的音素转录文件
如下图所示：

过程

Timit数据准备
- 注意: Timit数据集不可以免费获取，通过交钱或者加入LDC会员才可以获取数据集。以下假设已经获得Timit数据集。
步骤如下：
1. 进入kaldi/egs/timit/s5, 创建data目录, 用于存放timit数据；
2. 将timit数据复制到data目录下，复制完后的目录为data/timit/ ;
3. 修改s5目录下run.sh里timit的路径，在s5目录下执行run.sh即可，整个过程要几个小时；

问题及解决方法

问题一：

从错误信息可以知道qsub没有安装(或者不在搜索路径中)，安装qsub，重新执行
问题二：

这种情况多半是电脑没有使用GridEngine，这是需要修改s5目录下的cmd.sh中的变量，如下图：

参考

kaldi
TIMIT
LDC
SPHERS
Timit ReadMe

Kaldi-Timit 训练相关推荐

kaldi timit 语音库在线解码应用
<span style="font-size:18px;"> </span> 目录: 1.安装portaudio 2.编译onlinebin 3.创建脚本测 ...
Kaldi 离线在线解码应用
环境:Ubuntu 12.04, Kaldi timit训练完语音模型后可以进入解码, 1. 首先安装PortAudio cd /u01/kaldi/tools/portaudio ./confi ...
kaldi单音素模型训练 - train_mono.sh脚本解读
提示:本文适合kaldi的初学者,但最好有过运行kaldi的经验,并且大概了解EM算法.本文比较细致地对train_mono.sh脚本进行了解读,包括其源码,输入输出,以及对输出文件的内容都有详细的解 ...
如何使用kaldi训练得到录制音频的mfcc数据
如何使用kaldi训练得到录制音频的mfcc数据 1.使用python录制语音数据 1.1 安装pyaudio 1.2 录音程序 2.使用kaldi训练语音数据 2.1 文件复制及建立 3.mfcc数 ...
基于Kaldi的语音识别
cnblog: https://www.cnblogs.com/ye-buaascse/ 第二十九届"冯如杯"学生学术科技作品竞赛项目论文基于Kaldi的语音识别摘要近年来 ...
（IS 19）On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters
会议:INTERSPEECH 2019 论文:On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters ...
2020 年最具潜力的 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（附链接）...
来源:AI开发者本文约为7600字,建议阅读10分钟本文给开发者提供了详细的各领域工具并整理了清单11 种极具潜力的 AI 工具类型. 工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开 ...
2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（值得收藏）
导语:Github 开源项目技术图雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...
[转]2020 年最具潜力 44 个顶级开源项目，涵盖 11 类 AI 学习框架、平台（值得收藏）
导语:Github 开源项目技术图雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...

Kaldi-Timit 训练

Kaldi-Timit 训练

背景

Timit数据介绍

过程

问题及解决方法

参考

Kaldi-Timit 训练相关推荐

最新文章

热门文章