语音信号处理|ch8-深度学习语音分离

概述

1. 深度学习语音处理

【目标】
①能够有更好的自动语音识别(ASR)的指标;
②能够有更好的人类听觉感知

【现状】
①可以显著提升处理过程的速度并且提升性能;
②基于深度学习的语音信号处理已经遍布很广;
③可以作为前端独立优化,也可以和后端的ASR模型结合起来。

2. 单通道语音分离

【概述】
①语音分离的过程定义为从背景干扰中直接提取出目标语音的过程,是一个很典型的信号处理问题;
②在机器学习的概念下被定义为一个有监督学习的问题——期待能够从语音、说话人和背景噪声中学习出可以相互区分的特征模式

【分类】
按照目标语音和背景干扰直接的类别,可以划分为——
语音增强:将语音和非语音部分进行区分;
语音分离:对多个说话人的声音分别加以区分,即语音和语音之间的区分;
语音去混响:将语音和因为设备、环境带来的混响进行区分。


基于DNN的语音分离

问题建模

解范式


单通道分离算法

语音增强

1. Masking-based

在语音的时频域基于SNR对语音做掩码预测,将预测得到的掩码和原始音频结合起来就可以得到增强后的语音——在IBM的训练目标下,其本质上就是保留了每一个SNR值较高的时频单元


2. Mapping-based

利用神经网络直接学习从含噪语音(谱或其他域的特征表示)到纯净语音(谱或其他域的特征表示)的非线性函数。

语音去混响

①在去混响的工作中通常都是采样Mapping的框架,而很少用mask(?);
②基于端到端设计去混响的网络架构,整体的逻辑还是比较清晰直接的

说话人分离

【目标】
对于含有两个及其以上的人声的混合音频场景中,将多个语音信号(每一个信号对应为一个说话人)抽取出来;

【分类】
①说话人相关(speaker dependent):在从训练到测试的整个过程中,潜在的说话人身份并未发生改变;
②目标说话人相关(target speaker dependent):在训练到测试的整个阶段中,干扰音频中的说话人信息可以发生改变,但是目标说话人的信息是未改变的;
③说话人无关(speaker independent):在训练到测试的阶段中没有一个说话人身份是一样的,即训练集和测试集完全服从不一样的分布。

1. Speaker Dependent

2. Target Speaker Dependent

整体的网络架构和训练逻辑与前者相差无几,只不过只针对某一说话人的音频进行分离工作;数据集和统计意义下对数据的假设有微小变化。


3. Speaker Independent

【深蓝学院】语音信号处理|ch8-深度学习语音分离相关推荐

  1. 诺亚面向语音语义的深度学习研究进展

    本文来自华为诺亚方舟实验室资深专家刘晓华在携程技术中心主办的深度学习Meetup中的主题演讲,介绍了华为诺亚面向语音语义的深度学习进展. 本次演讲简要回顾了深度学习近十年进展,重点介绍华为诺亚方舟实验 ...

  2. 人声抑制 深度学习_一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法与流程...

    本发明涉及电子设备语音降噪技术领域,更具体地说,涉及一种融合骨振动传感器和麦克风信号的深度学习降噪方法. 背景技术: 语音降噪技术是指从带噪语音信号中分离出语音信号,该技术拥有广泛的应用,通常有单麦克 ...

  3. 【深度学习-语音分类】婴儿啼哭声识别挑战赛Baseline

    [深度学习-语音分类]婴儿啼哭声识别挑战赛Baseline 比赛简介: Baseline: 1. 加载并保存数据: 2. 设置训练数据: 3. 搭建LSTM模型: 最终结果: 有需求的大佬欢迎加入我的 ...

  4. 【论文综述】基于深度学习语音分离技术的研究现状与进展

    基于深度学习语音分离技术的研究现状与进展 本文主要是针对单通道的监督性语音分离技术的综述,描述该技术涉及到的特征.模型和目标三个主要方面:并对语音分离的一般流程和整体框架进行了详细的介绍.归纳和总结. ...

  5. 语音信号处理入门系列(1)—— 语音信号处理概念

    文章目录 1.语音交互 2. 复杂的声学环境 2.1 声学回声消除 2.2 解混响 2.3 语音分离 2.4 波束形成 2.5 噪声抑制 2.6幅度控制 2.7 前端信号处理的技术路线 3. 参考 4 ...

  6. 深度学习+语音,基础普及篇笔记(一)

    深度学习应用领域,可以分为3大块:图像,语音,文字.最近有时间,研究下语音: (一)定义 语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成. 一个单词的发声(波形)实际上取决于 ...

  7. 深度学习 - 语音应用

    1 语音技术概览 1. 语音的定义 语音指的是人们讲话时发出的话语 是组成语言的声音或者带有语言信息的声音 是一种人们进行信息交流产生的声音 语音(Speech)=声音(Acoustic) + 语言( ...

  8. 深度学习语音降噪总结

    实时语音通信发展到今天,用户对通话语音质量提出了越来越高的要求.由于终端设备的多样性以及使用场景的差异,声音问题依然存在.传统的音频处理技术从声音信号本身出发,挖掘其时频特性,作出假设,建立物理模型, ...

  9. 深度学习语音降噪方法对比_人工智能-关于深度学习的基础方法

    深度学习概述 深度学习的一些简介,其要点如下: 深度学习实际上是基于具有多个隐藏层的神经网络的学习: 深度学习的思想来源于人类处理视觉信息的方式: 深度学习的发展得益于数据的井喷和计算力的飙升: 深度 ...

最新文章

  1. IOS性能调优系列:使用Time Profiler发现性能瓶颈
  2. linux tar 提示 time stamp xxx in the future 解决方法
  3. 硬编码学习笔记(一)—— 经典定长指令
  4. 总结了一些指针易出错的常见问题(二)
  5. 数据结构与算法专题——第二题 优先队列
  6. c++new时赋初值_C高级编程精髓之内存管理,万千码农踩过的雷,大神带你走出雷区...
  7. 深度学习(五十一)变分贝叶斯自编码器(上)
  8. spring cloud 调用接口间歇性返回http 500 - Internal Server Error的错误
  9. python怎么导出程序_[272]如何把Python脚本导出为exe程序
  10. RHCE认证培训+考试七天实录(三)
  11. 将网页和文档的背景改为绿色来保护眼睛
  12. [Android] 混音线程MixerThread
  13. web前端笔试试题(答案)
  14. 马克思主义基本原理概论第一章笔记
  15. 【考研攻略】北京交通大学网络空间安全专业2018-2022年考研数据分析
  16. Windows中常用文件拷贝工具的评测和对比
  17. 油溶性球形金纳米颗粒,CAS7440-57-5
  18. Python入门干货经验(免费提供资料)
  19. toad连接数据库时报错 cannot load OCI DLL
  20. 第4章 基础知识进阶 第4.1节 Python基础概念之迭代、可迭代对象、迭代器

热门文章

  1. C++海港(port)
  2. 用Cisco模拟器,还原一个真实的公司网络部署过程
  3. 未来10年,最值得创业的行业是什么?
  4. 网站开发需要哪些技术_网站建设需要掌握哪些技术
  5. 十大音响品牌和十大假洋鬼子
  6. 夜数星辰 相忘于边陲桃源
  7. Elasticsearch集群配置
  8. shell输出毫秒_linux shell 获取毫秒数 计时
  9. opencv3.4.1: ippicv_2017u3_lnx_intel64_20170822.tgz下载包
  10. 计算机专业英语选词填空,专业英语考试+单词翻译+单项选择+选词填空+成成呕心沥血之作.doc...