人声分离攻破“鸡尾酒会”效应，将为语音识别带来哪些新可能?

“时隔65年，在近日Google Research软件工程师Inbar Mosseri和Oran Lang发表的论文《Looking to Listen at the Cocktail Party》中，采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道，这一突破为语音识别不仅带来了更多新可能，同时也成为该领域一个划时代的分水岭。”

在嘈杂的室内环境中，比如在鸡尾酒会中，同时存在着许多不同的声源：多个人同时说话的声音、餐具的碰撞声、音乐声以及这些声音经墙壁和室内的物体反射所产生的反射声等。

在声波传递过程中，不同声源所发出的声波之间以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。但在这种复杂的声学环境下，听者却能够在相当的程度上听懂所注意的目标语句。

听者是如何从所接收到的混合声波中分离出不同说话人的言语信号进而听懂目标语句的呢？这就是英国的认知科学家Edward Colin Cherry在1953年所提出的著名的“鸡尾酒会”问题。

自Cherry提出“鸡尾酒会”问题半个多世纪以来,大量的科学家试图去解决这个问题，甚至试图制造一个计算机言语识别的智能系统使其具有在嘈杂环境中识别目标语句的功能。但到2017年，“鸡尾酒会”问题还没有得到满意的解答。

音频-视觉语音分离解决“鸡尾酒会效应”

为了解决“鸡尾酒会”效应，Google从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本，谷歌研究团队解释道，他们通过算法追踪面部动作，通过学习YouTube上十万份优质的讲座和演讲视频，利用卷积神经网络模型将声音分离出来。

所谓的音频-视觉语音分离模型，就是加强选中人的语音，同时减弱同一时间其他人的音量。该方法适用于具有单一音轨的常见视频，用户也可以自行选择倾听对象来生成对其的单一音轨，或者基于语境由算法进行对特定发声对象进行选择。

在试验中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者。

在模型训练过程中，网络系统学习了视觉和音频信号的编码，然后将它们融合在一起形成一个音频-视觉表现。通过这种表现，网络系统可以学会为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而形成每一位说话者单独纯净的音频信号。

一般提到鸡尾酒会问题，更普遍或默认的情况是纯音频的分离，包括但不限于多人声/声源分离、降噪/增强等，而视环境情况不同也分为单通道/多通道，近场/远场，有噪声/无噪声等。

每一个子问题都是一个研究领域，而不同子问题之间并不完全重合，使得研究者一般只能将重心放在其中某些问题的某些情况的解决方案上。

“鸡尾酒会效应”难题的解决为语音识别领域的许多问题提供了思考路径，同时视觉-音频网络识别系统的提出，也为人声分离提供了视觉+听觉的解决方式。

为人工智能提供启示通用人声分离技术任重道远

那么人声分离技术真正应用于市场中会对产品产生哪些改变呢？首先智能音箱的语音识别精确度将大幅提升。目前，智能音箱的技术难题在于语音识别技术如何在嘈杂的环境中识别语音指令，包括酒吧和体育场等人声鼎沸的场景。

为此，微软在Xbox上部署了一款名为Voice Studio的应用，专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容，该公司为参与其中的用户提供了各种各样的奖励，包括点卡和游戏道具。

但是，效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。日后，随着智能家居的普及，智能音响成为了物联网环境下与其他家居沟通的“钥匙”，而AI人声分离技术的应用，攻克技术问题的同时也为智能音响提供了一个安全性较强的“保险箱”。

其次，“鸡尾酒会效应”在动物界的应用为无人驾驶提供一定启示。以蝙蝠躲避障碍和捕食为例，其在飞行过程中会发射一系列超声波，超声波遇到障碍后反射回来，蝙蝠通过感知反射信号到达两耳的时间差来判断障碍物的方向，通过感知反射信号的强度来判断障碍物的距离。

科学家通过研究发现，蝙蝠并没有改变发出的超声频率，而是通过叫声变大，持续时间变长，发射频率增多等方式来解决。

想提高雷达的定位精度，提高信噪比是根本。比如蝙蝠叫声变大，相当于提高了信号的能量；而叫声持续时间变长和叫声频率增多，则是增加了信号的样本点数。在噪声不相关的情况下，经过简单的平均就可以降低噪声的影响。

随着日后无人驾驶的普及，人声分离模式或可衍生出“雷声分离”，将雷达误收风险降到最低，从而保证无人驾驶障碍识别方面的安全性。

在更大的范围里，业界研究的还是只从音频出发的分离，因为这种是最普遍存在、最容易推广的情况。在最近三年里有很多基于深度学习的、只从音频进行分离的研究，相对于传统方法已经有了非常大的提升，但距离一个通用的、在任何环境下都接近人脑性能的分离系统，还有很大距离。

人声分离攻破“鸡尾酒会”效应，将为语音识别带来哪些新可能?相关推荐

语音跟踪：信号分解、锁相、鸡尾酒会效应、基于PR的信号分离
NLP中关于语音的部分,其中重要的一点是语音信号从背景噪音中分离.比如在一个办公室场景中,有白天的底噪-类似于白噪音的噪音.空调的声音.键盘的啪啪声.左手边45度7米元的地方同事讨论的声音.右手边1. ...
如何将音视频中的伴奏背景音乐和人声分离？
有时候我们要将某个视频或者音频文件中的人声或者背景音乐提取出来,用来创作视频或者用来做配乐.这时候,我们就要用到一个功能--"人声分离",这个功能可以轻松地将人声和背景音乐分离成两 ...
DeepMind发布最新原始音频波形深度生成模型WaveNet，将为TTS带来无数可能
WaveNets是一种卷积神经网络,能够模拟任意一种人类声音,生成的语音听起来比现存的最优文本-语音系统更为自然,将模拟生成的语音与人类声音之间的差异降低了50%以上. 我们也将证明,同一种网络能够合 ...
漂浮机器人新进展：Cimon的头部将为国际空间站带来人工智能
据外媒SlashGear报道,空客和IBM的人员将于今年夏天将Crew Interactive MObile CompanioN(CIMON)机器人头部带到国际空间站.这个机器人头部从来没有真正地连接 ...
云计算将为移动医疗带来哪些新机遇？
据易观智库公布的数据显示,国内移动医疗企业的资本关注度正逐渐加深,融资数量从2010年的3次到2015年的283次.然而进入2016年后资本对于移动医疗的态度趋于冷静,有关移动医疗即将洗牌的说法也甚嚣 ...
从几个应用入手了解为什么灵魂绑定代币将为 DeFi 带来大规模采用
在我来看,灵魂绑定代币(SBT)将为 DeFi 带来大规模的采用. 灵魂绑定这个概念最早是几个月前由 V 神和他的同事介绍的,而现在,已经有很多项目使用了灵魂绑定代币! 关于灵魂绑定代币灵魂绑定代币 ...
人声分离：快速分离视频和音频中的人声和背景伴奏，超简单
目前很多手机上比较常见的视频剪辑APP都有将视频声去掉这个功能,通过特定音频消音的方式将视频里声音部分去除,但是往往我们在做视频剪辑的时候,只是需要视频中的人声或者视频中的背景伴奏时,这些主流视频剪辑 ...
利用人工智能进行自动决策，将为我们带来更加智慧的路
至于高级人工智能拥有自我意识后,还会听人类的使唤吗?人类该怎么办?真的很难给出答案.或许我们可以通过某种机制避免这样的事情发生,或者禁止创造拥有自我意识的智能机器. 人工智能的最终目的就是为了让人们的 ...
伴奏人声分离软件看这篇介绍就够了
不知道各位小伙伴是否跟我一样有个习惯,就是在睡前刷一刷短视频,给大脑充分放松"按按摩",从而让自己能睡个好觉.我自己可以说是短视频的深度"患者"了,因为我喜欢看 ...
人声分离的软件哪个好？分享三个实用的软件
随着音频技术的不断发展,音频分离的应用场景也越来越广泛,例如在音乐制作过程中,需要将人声和伴奏分离,以便于处理和混音.如此一来,制作人员就可以单独处理人声和伴奏,并进行精确的混音.另外,在音乐创作的过 ...

人声分离攻破“鸡尾酒会”效应，将为语音识别带来哪些新可能?

人声分离攻破“鸡尾酒会”效应，将为语音识别带来哪些新可能?相关推荐

最新文章

热门文章