Kaldi-Timit 训练

背景

  • 这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。

Timit数据介绍

  • 制作方

    • Timit是几个研究机构联合收集的,文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成;语音录制在TI完成,转录(包括维护和校验)在MIT完成。
  • Corpus Speaker Distribution

    • Timit一共包含6300个句子,由来自美国8个主要州的630个人,每个人说10句话得到,详细情况如下表:

      州号(dr) 男性人数(#Male) 女性人数(#Female) 总人数(Total)
      dr1 (New England) 31(63%) 18(37%) 49(8%)
      dr2 (Northern) 71(70%) 31(30%) 102(16%)
      dr3 (North Midland) 79(67%) 23(23%) 102(16%)
      dr4 (South Midland) 69(69%) 31(31%) 100(16%)
      dr5 (Southern) 62(63%) 36(37%) 98(16%)
      dr6 (New Yourk City) 30(65%) 16(35%) 46(7%)
      dr7 (Western) 74(74%) 26(26%) 100(16%)
      dr8 (Army Brat) 22(67%) 11(33%) 33(5%)
      total 438(70%) 192(30%) 630(100%)
  • Corpus Text Material

    • 详细情况如下表:

      句子类型(Sentence Type) 句子数量(#Sentences) 说话人数(#Speakers) 总人数(Total) 句/人(#Sentences/Speaker)
      方言(SA) 2 630 1260 2
      音素紧凑型(SX) 450 7 3150 5
      音素分散型(SI) 1890 1 1890 3
      总数(Total) 2342 - 6300 10
    • SA类型主要针对同一音素在不同方言中的发音;SX类型的目的在于尽可能的覆盖多的音素对;SI类型是从Brown Corpus中选取的,目的在于增加句子的多样性。

  • Training/Test Subdivision

    • 核心测试集包含24个speaker,每个州2个男性1个女性,每个人3句SI型句子和5句SX型句子;完整测试集包含168个人,没人8句SX型句子。详细情况如下表:

      测试集类型 人数 句子/人 句子数
      核心测试集 24 8(3SI + 5SX) 192
      完整测试集 168 8(SX) 1344
  • 文件类型
    .wav : SPHERS 格式语音文件
    .txt : 音频转录文本
    .wrd : 带有时间标记的转录文件
    .phn : 带有时间标记的音素转录文件
    如下图所示:

过程

  • Timit数据准备

    • 注意: Timit数据集不可以免费获取,通过交钱或者加入LDC会员才可以获取数据集。以下假设已经获得Timit数据集。
  • 步骤如下:
    1. 进入kaldi/egs/timit/s5, 创建data目录, 用于存放timit数据;
    2. 将timit数据复制到data目录下,复制完后的目录为data/timit/ ;
    3. 修改s5目录下run.sh里timit的路径,在s5目录下执行run.sh即可,整个过程要几个小时;

问题及解决方法

  • 问题一

    从错误信息可以知道qsub没有安装(或者不在搜索路径中),安装qsub,重新执行

  • 问题二

    这种情况多半是电脑没有使用GridEngine,这是需要修改s5目录下的cmd.sh中的变量,如下图:

参考

  • kaldi
  • TIMIT
  • LDC
  • SPHERS
  • Timit ReadMe

Kaldi-Timit 训练相关推荐

  1. kaldi timit 语音库在线解码应用

    <span style="font-size:18px;"> </span> 目录: 1.安装portaudio 2.编译onlinebin 3.创建脚本测 ...

  2. Kaldi 离线在线解码应用

    环境:Ubuntu 12.04,   Kaldi timit训练完语音模型后可以进入解码, 1. 首先安装PortAudio cd /u01/kaldi/tools/portaudio ./confi ...

  3. kaldi单音素模型训练 - train_mono.sh脚本解读

    提示:本文适合kaldi的初学者,但最好有过运行kaldi的经验,并且大概了解EM算法.本文比较细致地对train_mono.sh脚本进行了解读,包括其源码,输入输出,以及对输出文件的内容都有详细的解 ...

  4. 如何使用kaldi训练得到录制音频的mfcc数据

    如何使用kaldi训练得到录制音频的mfcc数据 1.使用python录制语音数据 1.1 安装pyaudio 1.2 录音程序 2.使用kaldi训练语音数据 2.1 文件复制及建立 3.mfcc数 ...

  5. 基于Kaldi的语音识别

    cnblog: https://www.cnblogs.com/ye-buaascse/ 第二十九届"冯如杯"学生学术科技作 品竞赛项目论文 基于Kaldi的语音识别 摘要 近年来 ...

  6. (IS 19)On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters

    会议:INTERSPEECH 2019 论文:On Learning Interpretable CNNs with Parametric Modulated Kernel-based Filters ...

  7. 2020 年最具潜力的 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(附链接)...

    来源:AI开发者 本文约为7600字,建议阅读10分钟 本文给开发者提供了详细的各领域工具并整理了清单11 种极具潜力的 AI 工具类型. 工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开 ...

  8. 2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)

    导语:​Github 开源项目技术图 雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...

  9. [转]2020 年最具潜力 44 个顶级开源项目,涵盖 11 类 AI 学习框架、平台(值得收藏)

    导语:​Github 开源项目技术图 雷锋网 AI 开发者按:工欲善其事必先利其器,这也是大部分开发者在日常工作中最重要开发原则.选择与开发内容相匹配的工具,常常会使我们事半功倍.但面对人工智能的多个 ...

最新文章

  1. linux操作小技巧
  2. 阿里云高级总监谈超大规模超高性能分布式快存储系统
  3. 卓京计算机学校,卓京--计算机数据原理课程设计任务书.doc
  4. Nacos源码集群一致性
  5. 用java编写一个简单计算器
  6. 使用Visual Studio Code配合TypeScript增强SAP UI5开发的语法检查
  7. C++学习之路 | PTA乙级—— 1016 部分A+B (15分)(精简)
  8. java set泛型_Java 集合二 泛型、Set相关
  9. php环行队列实现,java数组实现队列及环形队列实现过程解析
  10. python工资这么高为什么不学-为什么Python岗位薪资越来越高
  11. DSP实验二c语言程序,实验1.2:编写一个以C语言为基础的DSP程序
  12. 《App后台开发运维和架构实践》资源汇总
  13. 解决:openstack-dashboard-登陆后显示报错
  14. pytorch1.10新功能inference_mode
  15. mysql nlssort_nlssort排序
  16. 创业,你踩过哪些坑?
  17. mysql 查询当月天数
  18. 怎样快速画出一个正方体_素描教程:新手如何快速学会正方体
  19. Cindy中的Filter
  20. 乐鑫嵌入式笔试总结-提前批

热门文章

  1. 项目docker容器化部署步骤
  2. 一款支持http与dubbo协议互相转换的网关
  3. 中国大学MOOC体育保健学考试试题及答案
  4. python geany是什么_Geany
  5. 【产业互联网】阿里曾鸣:下一个风口是产业互联网
  6. 手机软件开发入门 [转]
  7. ssh怎么ftp上传文件到服务器,ssh ftp上传文件到服务器
  8. c语言最近点对问题(4个点)-分治法递归
  9. Java:Windows 10下载和配置JDK
  10. R星安装不完全无法载入social club(错误码:1)解决办法