音频信号的特征提取

在处理音频信号时,一般要先进行特征提取,消除信号中的背景音、噪声等,保留有辨识性的内容信息。梅尔频率倒谱系数MFCC(Mel-Frequency Cepstral Coefficient)是一种非常重要的音频特征。

MFCC的主要特征提取流程为:

  1. 预加重:对音频信号的高频部分进行加重,增加信号中高频部分的分辨率、一般来说,音频信号的低频段能量高、信噪比大,高频段能量低、信噪比小。所以音频信号的能量主要分布在低频段,功率谱密度会随着频率的增高而降低,导致高频信号传输困难,影响信号质量。预加重最简单的处理方法是将音频信号通过高通滤波器。
  2. 分帧:将音频信号按一定的时间间隔分成若干帧。音频信号具有短时平稳性,分帧处理是为了保证后续的傅里叶变换的输入信号是平稳的。
  3. 加窗:将分帧后得到的每帧信号与特定窗函数相乘。加窗操作是为了让帧和帧之间平滑地衰减到零,取得更高质量的频谱。
  4. 傅里叶变换:将音频信号从时域变换到频域。转换到频域上能够更容易获得声音的一些本质特征。
  5. 梅尔滤波:模仿人类的听觉感知系统对频谱进行滤波变换。梅尔滤波器在低频区域分布比较密集,在高频区域比较稀疏。
  6. 对数变换:用于放大低能量区域的能量差异。
  7. 离散余弦变换:对特征做进一步的处理和压缩。梅尔滤波器的个数通常是404,因此离散余弦变换的结果也是40维的,在实际应用中一般保留前12~20维。

MFCC特征提取分离了包络和细节,提取出了反映音色的包络,排除细节的干扰,模仿人耳特性的梅尔滤波器组更符合人类的听觉特征,最终得到的MFCC特征序列维度较低,易于后续的建模处理。

语音识别

语音识别是通过计算机程序将一段人类语言的声音信号转换为对应的词序列。

组成模块

语音识别算法一般由编码器和解码器两部分组成,编码器包括信号处理和特征提取模块,解码器包括声学模型、语言模型、搜索算法等。

  • 信号处理与特征提取:以音频信号为输入,通过信号去噪和增强等方式预处理音频信号,再通过时频转换以及相关的特征提取算子来提取特征。
  • 声学模型:输入特征序列,结合声音学相关知识,生成声学模型得分,并得到语音特征到音素的映射。音素是根据语音的自然属性划分出来的最小单位。
  • 语言模型:通过语料库来训练和学习词之间的条件概率,从而估计出词序列的可能性。
  • 搜索算法:对给定特征向量和假设词序列,计算声学模型得分和语言模型得分,将综合分数最高的词序列作为识别结果。

传统算法

传统方法最常用的框架是先提取音频信号的MFCC特征,然后使用基于高斯混合模型的隐马尔可夫模型(GMM-HMM)进行语音识别。HMM用于建模词的隐状态与观察状态之间的关系,GMM用于建模观察状态的语音特征的分布情况。

深度学习算法

用深度神经网络来替代传统方法中的各个模块,使模型的整体结构从复杂的多模块级联转为端到端的形式。DNN-HMM算法用DNN替换了传统方法中的信号预处理、特征提取、GMM等级联模块。CTC算法结合LSTM来代替HMM模块。

音频事件识别

音频事件识别是指用计算机自动地识别音频信号并关联声音对应的事件。常用方法是先将音频信号转换为频谱信号并提取MFCC特征;随后经过深度卷积神经网络进行进一步的特征提取,将特征压缩为更紧凑、具有高级语义信息的表征向量;最后将该向量输入到相应任务的分类器,得到最终音频事件的预测结果。

【学习笔记】计算机听觉相关推荐

  1. 学习笔记 计算机系统概述_计算机硬件的基本组成

    计算机基本组成学习笔记 概述 计算机主要核心部件采用 高速电子元器件. 计算机具有数据处理.数据存储.数据传送三种基本功能,都是通过计算机硬件自动执行程序所包含的指令来完成的 计算机系统由软件与硬件组 ...

  2. 2022软考网络工程师学习笔记——计算机组成与结构(Day2)

    前言 本篇主要讲解我在 计算机组成与结构 中的所学所悟, 旨在分享学习笔记, 交流学习经验.

  3. OpenGL学习笔记 - 计算机图形学和现代图形API

    一.计算机图形学 1.简述 wiki上的解释说,"计算机图形学是计算机科学的一个子领域,它研究数字合成和操纵视觉内容的方法.尽管该术语通常指的是对三维计算机图形学的研究,但它也包括二维图形和 ...

  4. 《计算机网络——自顶向下方法》学习笔记——计算机网络安全

    计算机网络--计算机网络安全 计算机网络安全 什么是网络安全 密码学的原则 对称密钥密码体制 公开密钥加密 报文完整性和数字签名 密码散列函数 报文鉴别码 数字签名 端点鉴别 鉴别协议 ap1.0 鉴 ...

  5. 学习笔记 计算机组成原理_名词解释

    一.计算机系统概述 中央处理器(CPU): 是计算机的核心部件,有运算器和控制器组成. 算数逻辑单元(ALU): 用来进行基本的算术和逻辑运算,ALU最基本的部件是加法器 数据通路:是指指令执行过程中 ...

  6. 计算机组成原理学习笔记——计算机外围设备

    计算机的外围设备 一.输入设备 1.键盘 2.鼠标 二.输出设备 1.显示器 1)CRT 显示器 ①字符显示器 ②图形显示器 2)LCD 显示器 3)LED显示器 2.打印机 1)针式打印机 2)喷墨 ...

  7. 408计算机组成原理学习笔记——计算机系统概述

    目录 1.计算机硬件的基本组成 1.1.计算机硬件组成部分 1.2.冯诺依曼计算机的特点 1.3.现代计算机的特点 2.主存储器的基本组成 2.1.MAR和MDR 2.2.存储单元.存储字长和存储字 ...

  8. 学习笔记|计算机组成原理小分块-按字寻址、按字节寻址

    教材:<计算机组成原理>第二版 作者:唐朔飞 出版社:高等教育出版社 这里查了很多资料,但是还是有点懵,欢迎大家来纠错哇! 先修知识: 位(bite): 音译为"比特" ...

  9. 软件设计师学习笔记-计算机组成笔记

    目录 计算机组成原理 移码 计算机结构 计算机体系结构分类(Flynn) 指令系统类型CISC与RISC 流水线计算 流水线吞吐率的计算 流水线的加速比 流水线的效率 局部性原理 主存的分类 磁盘结构 ...

  10. 鸟哥私房菜linux基础学习笔记 1

    linux基础学习笔记 计算机:辅劣人脑的好工具 1.计算机硬件癿五大单元 输入单元:包括键盘.鼠标.卡片阅读机.手写板.触控屏幕等等一堆: 主机部分:这个就是系统单元,被主机机壳保护住了,里面有 C ...

最新文章

  1. 怎么去除图像亮度对图像质量评价的影响_图像质量评估指标 SSIM / PSNR / MSE
  2. 主瓣、栅瓣和旁瓣的定义
  3. 工作中用到的设计模式?
  4. Windows RabbitMQ 命令
  5. 记一次项目代码重构:使用Spring容器干掉条件判断
  6. 【C#】eventlog类的使用
  7. 【python】nonebot--QQ接口库
  8. FPS游戏通用自瞄实现
  9. Excel函数公式大全—IF家族函数
  10. 面试如何解释上份工作时间短
  11. C#调用Onnx模型
  12. 计算机应用技术毕业后的简历,计算机应用技术毕业生个人简历模板
  13. Vue 按enter键实现登陆
  14. i春秋:日益增多的企业重要资料外泄
  15. Android-----将 Ijkplayer 集成到Android Studio中(一)
  16. R语言筛选两列中元素相同的重复数据
  17. vue2打包兼容ie11白屏报错问题汇总
  18. linux下ping提示dup,ping出现dup问题
  19. 如何在服务器开启PathInfo
  20. 计算几何,三维向量的旋转

热门文章

  1. 珂朵莉树(永远喜欢珂朵莉/doge)
  2. 真光手环诞生记:锐捷助力百年老校实现智能穿戴梦
  3. “能说会道”的Word
  4. js模拟a标签点击在新窗口打开
  5. mui多页面情况下返回主页
  6. 一文彻底搞清git reset和revert区别
  7. js学习-HTML标签隐藏以及不可修改,设置隐藏标签
  8. 计算机系运动会运动员投稿,运动会投稿词(精选10篇)
  9. videojs进度条禁用
  10. Linux系统时间比现在时间快8小时的解决方法