基于GMM-HMM的语音识别系统
终极目的:让机器“听懂” 。
• 对齐:“音频wav” 和“文本txt”的对应关系
• 训练:已知对齐(wav及其txt),迭代计算模型参数。
• 解码:根据训练得到的模型参数,从wav推出txt。

核心:训练和解码

目录:

  1. 基于孤立词的GMM-HMM语音识别系统
    a. 训练(前向后向训练/Viterbi训练)
    b. 解码
  2. 基于单音素的GMM-HMM语音识别系统
    a. 音素/词典
    b. 训练
    c. 解码
  3. 基于三音素的GMM-HMM语音识别系统
    a. 三音素
    b. 决策树
    c. 训练
    d. 解码
  4. 基于GMM-HMM语音识别系统流程

1.基于孤立词的GMM-HMM语音识别系统

建模
建立特征向量与模型之间的关系
Xtest测试特征,Pw(X)是词w的概率模型,vocab是词表(在该示例中即0~9 10个数字)

这里的意思就是我们首先要对每个词建模,在他们落在每个词上面的概率,最后选择最大概率那个作为答案。

语音识别中的GMM(对角的GMM,协方差为对角阵,MFCC特征)。语音识别中的HMM,采用3状态,左右模型的HMM:

·为什么采用3状态?这是前人大量实验给出的经验值;
左右模型的HMM:对于每个状态,它只能跳转到自身或者下一个状态。类似于人的发音过程,连续不可逆
对于每个状态有一个GMM模型,对于每个词有一个HMM模型,当一段语音输入后,根据Viterbi算法得到一个序列在GMM-HMM上的概率,然后通过Viterbi回溯得到每帧属于HMM的哪个状态(对齐)。

训练
从系统的角度思考
• 输入:词w和w所对应的训练数据
• 输出:词w的HMM-GMM模型,也就是其参数

关键点
• 任务:训练数据Xw1,Xw2,Xw3… 中训练Pw(X),估计HMM-GMM参数
• 准则:最大似然
• 方法:
• Viterbi学习(Viterbi训练)
• Baum-Welch学习(前向后向训练)

下面进行viterbi算法与EM算法的训练,那么我们就要对应找到初始状态,状态转移概率矩阵,观测概率矩阵。
初始状态:从左到右的HMM。
转移矩阵:跳回到自己或者跳向下一个参数
观测矩阵:混合系数、均值、方差

Viterbi算法
• E步(hard count)
Viterbi算法得到最优的状态序列(对齐 alignment),在t时刻处于状态

【语音识别】基于GMM-HMM的语音识别系统相关推荐

  1. 传统语音识别(GMM+HMM)

    语音信号的采集: 语音信号计算机中是采用PCM编码按时间序列保存的一连串数据.计算机中最原始语音文件是wav,可以通过各种录音软件录制,录制是包括三个参数 fs:采样率 8000Hz 115200Hz ...

  2. AI大语音(七)——基于GMM的0-9语音识别系统(深度解析)

    本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 1 系统概要 孤立词识别:语音中只包含一个单词的英文识别 识别对象:0-9以及o的英文语音 ...

  3. 语音识别传统方法(GMM+HMM+NGRAM)概述

    春节后到现在近两个月了,没有更新博客,主要是因为工作的关注点正从传统语音(语音通信)转向智能语音(语音识别).部门起了个新项目,要用到语音识别(准备基于Kaldi来做).我们之前做的传统音频已基本成熟 ...

  4. python语音建模_该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模...

    基于深度学习的中文语音识别系统 如果觉得有用的话,小手给个star吧~ 注意:本人于近期想对该项目进行翻新,tf现在已经将keras作为重要的一部分,因此可能将代码用TensorFlow2来进行修改. ...

  5. 语音识别——基于深度学习的中文语音识别系统框架

    本文搭建一个完整的中文语音识别系统,包括声学模型和语言模型,能够将输入的音频信号识别为汉字. 该系统实现了基于深度框架的语音识别中的声学模型和语言模型建模,其中声学模型包括CNN-CTC.GRU-CT ...

  6. 一种基于说话人识别和数字语音识别的身份认证方法与流程

    本发明属于语音处理技术领域,具体涉及到对数字语音序列进行说话人识别和语音识别,确定说话人身份的身份认证方法. 背景技术: 说话人识别也称为声纹识别,可以从说话人发出的声音中提取其个性特征,从而识别出当 ...

  7. 基于DTW算法的语音识别原理与实现

    [摘 要]以一个能识别数字0-9的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术.其中包括对语音端点检测方法.特征参数计算方法和DTW算法实现的详细讨论,最 ...

  8. 基于80251的嵌入式语音识别

    一.文档介绍 嵌入式语音识别技术在251内核的实现. 缩写.术语 解 释 Specific Person Isolated Word Speech Recognition 特定人孤立词语音识别 End ...

  9. 最白话的语音识别入门—GMM模型

    最白话的语音识别入门-GMM模型-2021-01-04 前言 一.高斯混合模型? 二.训练思路 问题1.我要用多少个高斯分布去建立高斯混合模型呢? 问题2.每一个高斯分布在一个GMM中占据了多少分量? ...

  10. 语音识别——基于深度学习的中文语音识别tutorial(代码实践)

    文章目录 利用thchs30为例建立一个语音识别系统 1. 特征提取 2. 数据处理 下载数据 2.1 生成音频文件和标签文件列表 定义函数`source_get`,获取音频文件及标注文件列表 确认相 ...

最新文章

  1. 数据结构 -- 散列表
  2. 面了小 100 人,90% 都背了面试题......
  3. boost::hana::replace用法的测试程序
  4. MFC略缩图控件实现
  5. java private 对象_[Java笔记]类的所有构造器都是private权限,就一定没有办法实例化它的对象了么?...
  6. wemall微信商城云平台 快速创建您的微信商城
  7. .Net水晶报表的使用总结
  8. AI风向标:发改委重大工程项目公布,首个无人车路测试点落户亦庄
  9. 浏览器兼容之旅的第二站:各浏览器的Hack写法
  10. [github高级控件] 带你走近 - CircleIndicator指示器原点动画切换
  11. 计算机基础知识ppt图文,计算机基础知识讲解ppt课件.ppt
  12. 【机器学习】线性回归实战案例三:股票数据价格区间预测模型(国外+国内数据)
  13. Win10卸载edge浏览器与后悔重装
  14. Android调试出现问题:failed to connect to /10.0.2.2 (port 8080) from /192.168.31.150 (port 37592) after 300
  15. 我是谁,没有绝对安全的系统
  16. cydia软件路径_Cydia源目录结构解析
  17. Bat(批处理)文件编写手册(一)
  18. 建模神器 | 涨知识,BIM渲染神技能
  19. C语言进程——进程间的通信方式
  20. 2019北大计算机夏令营,2019年北京大学化学学院“全国优秀大学生夏令营”第三轮通知...

热门文章

  1. ZBrush教程_次时代作品“行尸矿工”制作教程
  2. HandShaker mac(锤子科技安卓手机数据传输)
  3. android之换肤原理解读
  4. Scratch第二课:公园里的淘气女孩
  5. 小米官网仿造(四)---jQuey
  6. 电脑数据突然不见了怎么办?如何恢复丢失的文件
  7. 存货跌价准备的计提(转)
  8. 【Reference reading】硼中子俘获治疗计划及患者定位
  9. 添加光效——颜色减淡法
  10. jgs--多线程和synchronized