语音识别原理(1)-语音识别有哪些过程
如果要自己开发一个语音识别系统,首先需要一个声音的录音程序。这个录音程序主要干的事就是将我们人说话的模拟信号转换成数字信号,也就是语音编码中的量化。
语音编码主要有4个步骤的过程:
参考 https://blog.csdn.net/miaokoko/article/details/79183975
模拟信号------采样------量化--------数字信号
模拟信号也就是我们人发出的声音信号,模拟信号是连续的,没有办法用计算机存储,所以为了能让计算机存储模拟信号必须对其进行采样。
采样也就是每隔一段时间采一个点,让人说话的模拟信号变成离散信号,可以让计算机处理。
但是这时候计算机还是不能存储,因为没有计算机里面都是使用二进制存储,必须将每一个模拟信号的直转换为一个量值,让计算机能够表达并存储,所以就需要对采样的值进行量化。
量化也就是我们编程中遇到的16位PCM编码中的16位,每16位表达一个量化的值,也可以选择8位。
PCM编码就是对模拟信号进行四个过程转换后得到的数字信号,但是此使如果我们要播放音频,还需要将信号转换为可以播放的格式,一般选择无损的话会选择wav格式,wav只是简单的在PCM数据上加了自己的头,数据部分不变。具体格式很多,可以参考:https://blog.csdn.net/houxiaoni01/article/details/78810674 作者写的很全。
然后拿到数字信号就可以进行语音识别了。
语音识别主要过程有:
一段音频------分帧(分成若干小段音频)------特侦提取(一般是MFCC特征)--------识别(声学模型)-------组合(语言模型)
首先一段音频,也就是上面我们的录音程序录到的一段音频文件,比如A.wav/A.mp3......
分帧也就是将我们录到的这一段音频隔一段时间切割一下,比如我们录了1分钟的声音,现在我们每1秒分割一下,会得到60个样本。
特征提取一般是提取MFCC特征,使用的主要是傅里叶变化的原理,有一些现成的工具(librosa http://librosa.github.io/librosa/),有兴趣也可以看看源码。
然后就是通过两个模型来识别。这里主要的两个模型,声学模型和语言模型,最好使用已经训练好的,因为已有的模型是在大量数据样本下训练的,有更好的棒性。如果要自己完成整个过程,需要自己对数据进行标注。
声学模型主要干的事是将我们分帧后的数据获取到对应的因素。
语言模型也就是根据不同语言的结构,前后关系的一些句子,匹配到和声学模型识别到的最相似的句子,给出一个人类可以读懂的句子。
语音识别大致就是这样几个过程。
还需要了解一些最常用的算法:比如EM算法,HMM(隐马尔可夫),LSTM,RNN,基本的神经网络等。
学习语音识别也可以多在GitHub上看一些项目。多看源码,了解具体的过程。
语音识别原理(1)-语音识别有哪些过程相关推荐
- 语音识别的原理_语音识别原理_语音识别原理框图 - 云+社区 - 腾讯云
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 深入浅出地介绍了基于hmm的语音识别的原理,不注重公式的细节推导而是着重阐述公式背 ...
- 语音识别技术_语音识别原理_语音识别技术原理_企业服务汇
编者按:对于需要引入语音机器人的企业来说,机器人的语音识别能力是企业需要关注的重点,企业怎么去判断语音机器人的语音识别技术水平?本文从语音识别技术的发展和语音识别能力判断进行介绍. ➤语音识别技术的发 ...
- 智能语音识别系统_语音识别技术原理_智能语音识别系统如何识别用户意图_企业服务汇...
编者按:智能语音识别系统目前已经实现商业化应用,广泛应用于客服行业,包括智能语音客服和智能客服呼叫中心.那么智能语音识别系统如何识别客户意图,如何判断智能客服系统的语音识别能力呢?本文我们将结合语音识 ...
- 30年时间让科技与人对话,什么是机器人语音识别原理
电销机器人核心技术是语音是识别,了解一台机器人语音识别原理,可以说就能知道电话机器人好不好用,能否帮助企业完成拓客需求. 作为人工智能的产物,电销机器人还蒙着一层神秘的色彩.电销机器人如何做到语音识别 ...
- 【AI 全栈 SOTA 综述 】这些你都不知道,怎么敢说会 AI?【语音识别原理 + 实战】
章目录 前言 语音识别原理信号处理,声学特征提取识别字符,组成文本声学模型语言模型词汇模型 语音声学特征提取:MFCC和LogFBank算法的原理 实战一 ASR语音识别模型系统的流程基于HTTP协议 ...
- 语音识别原理与应用:第三章 语音特征提取 3.1预处理
今天开始学习洪青阳老师编写的语音识别原理与应用,把书中的内容用代码复现下,系统的进行学习 3.1预处理 (1)预加重 这里实际上是设计了一个一阶高通滤波器 原始语音信号图"蓝天白云碧绿的大海 ...
- micropython 离线语音识别_百度语音识别.pdf
语音识别1(百度语音识别) 简介 推荐国内用户使用!识别普通话效果可以,识别英文效果不好.尽量识别长点,有现实意义的长短语. 这样识别率比较高 语音识别,是CC喵最喜欢的一个人工智能功能.近年来智能音 ...
- 语音识别系统功能_语音识别系统的应用
语音识别系统功能 对比语音识别技术的两个发展方向,由于基于不同的运算平台,因此具有不同的特点.大词汇量连续语音识别系统一般都是基于PC机平台,而语音识别专用芯片的中心运算处理器则只是一片低功耗.低价位 ...
- python语音识别库kaldi_Kaldi 语音识别基础教程
Kaldi 介绍 Kaldi 是由 C++ 编写的语音识别工具,其目的在于为语音识别研究者提供一个研究和使用的平台. Kaldi 环境搭建 本文主要通过使用 Docker 和 Nvidia-docke ...
最新文章
- 在耗时操作结束之前 销毁tableView 如何让tableViewCell 销毁
- python 图形界面文本处理_python3.6 +tkinter GUI编程 实现界面化的文本处理工具
- tail -f 和 -F 的用法
- 5个让你充满健身动力的方法
- springboot通过url访问项目外的其他目录下的图片
- photos怎么改成中文_Win10怎么设置中文语言?Win10设置语言为中文的方法图解
- 利用Matlab拟合时序植被生长季曲线,并求解物候参数
- bash 历史记录_这些提示使Bash历史记录更加有用
- Java面试之JVM参数调优
- 内温的整体优先效应实验_[心理学复习.doc
- qfile如何清空内容_数据丢失的场景有哪些?如何找回丢失的数据?
- c语言教程文库,C语言经典教程
- 【系列三之CentOS系列】CentOS命令操作(2)
- 浅谈中国古代服饰纹样中礼制精神的体现
- 大容量U盘计算机会不识别吗,电脑无法识别U盘?学会这5步操作,不求人自己也能解决...
- 如何启用计算机的休眠,电脑休眠
- 请求的操作需要提升 windows7 route add命令 windows7添加路由
- 测试经验 --- 那些躲在角落的缺陷
- iOS webview 实现不允许上拉回弹但是可以下拉刷新
- Nova API服务之Nova API服务的启动