利用业余时间写一下自己看书的感受,就当作随笔把,这样也能帮助自己记忆,同时关于kaldi的章节我选择先停一停,我感觉把这个问题理解透再去查看kaldi可能会事半功倍。我选取的章节来源于"The Application of Hidden Markov Models in Speech Recognition",英文版的,有兴趣的可以去看看。废话不多说,我们直接进入主题。

下图显示了大型连续语音词汇识别的主要部分:

说实话看这图要不是我会语音增强的部分知识的话,我会认为很简单,的确,图看上去确实很简单,不过任何一个细节拿出来都足以让我们翻阅无数资料。如图,输入的波形(语音)被转化固定长度的语音响亮序列:

这个过程称之为特征提取,也就是著名的Feature Extraction(不要看到公式就害怕,就是有序的向量的排列)。那么解码器(Decoder)就会尝试去寻找最可能产生如上Y的字:w1:L=w1,....wL 的序列,假如decoder尝试寻找

(PS:哇,看到这里我突然想到了为什么要训练模型了)。然而,由于P(w|Y)直接建模是十分困难的,我们对上述式子使用贝叶斯准则就会得到如下的相等式子:

这里其实有朋友会像我刚开始一样迷惑:这TM是瞎说呀,当我们不会贝叶斯准则吗,朋友,在打死我之前,我是这么说服我自己的:

大爷你细想一下是不是这个道理。其中p(Y|w)的概率是由声学模型(acoustic model )来决定的,而后者P(w)是由语言模型来决定的【仔细品这两句话呀,越品越感觉有点意思】。声音的基本单位是音素(Phone,别像我似的记成手机,唉)。比如单词bat由三个音素组成:/b/,/ae/,/t/。大约40个这样的音素能组成英文【其实我的老师一直讲元音20个,辅音28个,我不知道作者这里是不是想说48,所以用了大约这个词】。

对于任何给我们的w,其对应的声学模型都是通过串联音素模型来拼成我们预先定义好字典中的单词(仔细品味,反问自己一句,声学模型是用来干什么的?)。其中音素模型的参数都是通过由语音和其带有标签的数据训练而得到的。语言模型通常是一个N-gram模型,每个词的概率仅在他的N-1个词上进行调整【我的理解就是换个角度:他的下个词的概率仅仅与本词相关,与马尔可夫的状态改变相互联系一下,是不是感觉有点意思,错了当我没说。。。】。通过在合适的语料库中计数N元组来估计N元参数【这句话我理解不了,日后分析】。decoder通过搜索所有可能的单词来修建那些低概率的可能从而保证了搜索易于处理【这句前半句很明白,后半句保证了搜索易于处理什么意思,我的想法是随着剪掉的可能越来越多,搜索也就越来越快,处理起来越容易】。当话语结束时,输出最可能的序列。另外,现代解码器可以生成包含最可能假设的紧凑形式。

由于时间关系,今天到此结束,明天晚上回来继续。

基于HMM的语音识别(一)相关推荐

  1. 基于HMM的连续小词量语音识别 - 模拟技术 - 电子发烧友网

    相关推荐 人工智能在经历了迅速发展之后,AI 领域的人才需求也发生调整.近日,猎聘联合 GMIC 发布了< 2... 发表于 2018-04-12 15:38 • 63次阅读 确定最佳深度可以降 ...

  2. 基于Kaldi的语音识别

    cnblog: https://www.cnblogs.com/ye-buaascse/ 第二十九届"冯如杯"学生学术科技作 品竞赛项目论文 基于Kaldi的语音识别 摘要 近年来 ...

  3. 统计机器学习方法 for NLP:基于HMM的词性标注

    前言 最近在重刷李航老师的<统计机器学习方法>尝试将其与NLP结合,通过具体的NLP应用场景,强化对书中公式的理解,最终形成「统计机器学习方法 for NLP」的系列.这篇将介绍隐马尔可夫 ...

  4. m基于HMM隐性马尔科夫模型的驾驶员驾驶意图识别算法matlab仿真

    目录 1.算法仿真效果 2.算法涉及理论知识概要 3.MATLAB核心程序 4.完整算法代码文件 1.算法仿真效果 matlab2022a仿真结果如下: 2.算法涉及理论知识概要 随着智能交通系统的发 ...

  5. 【语音识别】基于GMM-HMM的语音识别系统

    基于GMM-HMM的语音识别系统 终极目的:让机器"听懂" . • 对齐:"音频wav" 和"文本txt"的对应关系 • 训练:已知对齐(w ...

  6. 基于《Kaldi语音识别》技术及开源语音语料库分享

    前言: 数据堂自AI开源计划发起,面向高校和科研机构首次开源的[1505小时中文普通话语音数据集],该数据集句标注准确率达到了98%,得到了很多开发者的认可. 不仅如此,数据堂基于此开源数据集还精选出 ...

  7. 基于DNN-HMMs的语音识别原理

    在上一篇博客基于GMMs-HMMs的语音识别原理中,介绍了第一代较为成熟的GMMs-HMMs语音识别模型.但随着神经网络技术的发展,后面又出现了基于DNN-HMMs的语音识别模型,一句话概括就是用DN ...

  8. HMM在语音识别中的应用

    HMM处理三种问题,我理解为三种功能: - 给出 O (可观测序列o1 o2 o3- ot),求P(O | hmm) - 给出 O,求出使P(O, H | hmm)最大的 H (H为与O对应的隐藏层时 ...

  9. dtw算法 matlab,基于DTW的语音识别在MATLAB中的实现方法浅析

    摘要:本文阐述了基于DTW的非特定人语音识别的基本原理与实现方法.该语音识别系统预先建立标准语音模板库与三名待测者的语音模板的方法,然后结合MATLAB中自带voicebox语音工具箱及相应语音处理函 ...

最新文章

  1. Python命令行解析:IDE内点击Run运行代码直接得出结果、基于TF flags(或argparse、sys.argv)在Dos内命令行(一条命令)调用代码文件得出结果
  2. 英语语法---谓语详解
  3. python partial_Python--并行计算框架(pathos)
  4. PHPmail 亲测可用
  5. java带界面的代码_求一个java swing带界面的万年历代码
  6. 将war文件解压到指定目录
  7. python爬虫大众点评_Python爬虫丨大众点评数据爬虫教程(1)
  8. 8086/8088CPU内部结构
  9. pfamscan 的使用_【T】每日一生信--PfamScan及fam数据库
  10. 图像处理库Pillow的使用
  11. shiny改写服务器文件,Shiny生产环境部署与共享
  12. Win10耳机插上没反应,外放正常怎么解决?
  13. c语言佛像怎么打,佛像的制作过程,让你大开眼界!
  14. 教务系统自动评教_新版正方教务管理系统自动评教脚本
  15. 远程桌面无法连接解决办法
  16. ESP32-CAM+PIR传感器=动作抓拍监控
  17. 【Transformers】第 7 章 :问答
  18. 初识ElasticSearch(5) -批量操作之bulk | 条件查询 | 其它查询
  19. 计算机夏令营英语自我介绍,保研夏令营英语自我介绍
  20. SQL把一个表中数据更新到另一个表的多种方法

热门文章

  1. glGetProgramiv
  2. linux系统管理总结,Linux系统管理总结
  3. php页面汉语转英文,php如何自动跳转中英文页面
  4. Mybatis连3表查询数据resultMap结果映射
  5. 无线路由器以防止别人蹭网
  6. 搜索04 Mine Sweeper
  7. 精彩纷呈,不虚此行——第五届上海燕博会(燕窝滋补品展)活动日程预告
  8. 菁染料CY3标记氨Cyanine3-amine合成方式2247688-56-6
  9. (T2I) VILT
  10. Mesos集群:2个Linux agent和1个Windows agent