详解声纹识别：如何正确评价小度在最强大脑中战平人类？

雷锋网按：作者陈孝良，博士，声智科技创始人，曾任中科院声学所副研究员和信息化办公室主任，中科院上海高等研究院客座，北京市公安局首届网络应急专家，主要从事声学信号处理和 GPU 深度学习算法研究工作。本文系雷锋网独家首发文章。

百度小度在“最强大脑”比赛中以1:1战平名人堂公认最擅长声音辨别的选手孙亦廷，引发了一些媒体的追踪报道，我们惊喜的同时也发现有些文章的报道是不准确的，这种漫无边际的夸大实质上对百度口碑是不利的。我们始终应该清晰的认识到：人工智能经过半个多世纪的起起伏伏，到如今开始落地到应用场景，确实是一件非常令人兴奋的事情，但这不代表着人工智能就真的智能了，并且超越人类了。事实上，这才只是刚刚开始，人工智能还有很长的路要走。

1、小度声纹识别挑战的是深度学习，绕过了物理感知的难题

我们先看“最强大脑”比赛中设定的场景，首先由嘉宾周杰伦在21位专业合唱团成员中任选三位歌唱者，并与其进行现场通话，通话录音被截取成片段，然后人机共同根据这些通话片段，在随后的合唱表演中一次找出这三位歌唱者。这其中有一个小插曲，周杰伦在介绍环节让观众和其他嘉宾现场去试验，没有观众能从合唱中正确辨别出缺少了哪位歌唱者，这其实是根本不公平的。现场观众听到的是演播室场景下通过音响系统扩放的声音，这些声音受到了建筑环境、音响系统的多次污染，而且是混音后的声音，其难度完全挑战了物理极限。但是真实比赛中，从电视画面的场景分析来看其实完全不是这个情况，“最强大脑”节目组所设定的难度和追求的理念在实际执行过程中是大大折扣了，这非常容易产生误导。

我们从两幅视频截图中可以看出，每位歌唱者面前都摆放了独立的麦克风，这种麦克风从外观来看动圈式的可能性更大，动圈式麦克风的灵敏度要低于电容麦克风，其可拾取的声音频段也不如电容麦克风。动圈式麦克风常常应用于舞台录音，主要就是为了避免噪声干扰。并且，孙亦廷面前摆放了21个按键可以放大任意一位演唱者的声音，同时孙亦廷也是戴着耳罩式耳机来听声音。

因此节目组特意安排的这种声学场景布局就产生了两个疑问：

其一：每个歌唱者的声音其实是单独录制的，不存在每个歌唱者之间的互相干扰和现场噪音干扰的问题，而孙亦廷听到的声音和现场观众听到的声音，以及电视面前各位听到的声音也是不一样的。

孙亦廷听到的声音是每位合唱者的独立音轨通过演播室音响系统混音后的声音（这也有待于确认混音方法），至于孙亦廷的耳机是否包含音乐的混音我们还无法从电视画面中确认。而现场观众听到的声音则会受到演播室音响扩声系统和演播室建筑声学设计的严重影响。电视观众所听到的声音还会受到电视音频编解码系统的严重影响。

其二：就是百度的小度机器人所获得的音频是怎样的？若是直接获取到21个歌唱者的独立音轨，则就完全绕过了物理感知中的所有难题，仅仅只是比拼深度学习算法而已。

即便和现场演示一样也是获得的混音数据，由于机器人可以比人类更方便的放大每一位歌唱者的音频，也是极大减弱了挑战的难度，这对于人类反而不公平了。凡是学过信号处理的同学都清楚，信号处理其实不在意绝对噪声的干扰，理想场景的物理世界是不存在的，只要符合“信噪比”这个指标就能满足机器处理的要求。

所以有篇文章中所提到的“低质量的语音数据，又要在强噪声干扰下对歌唱数据进行识别，对小度来说确实挑战很大”这句话实际上是不准确的。即便“合唱发声差异性极小且互相影响”这句话也不是确定的。小度机器人听到的声音，孙亦廷听到的声音，现场观众听到的声音和电视机观众听到的声音其实都是不一样的，而且这个难度也是逐渐增加的。后面两种声音其实才是真正的挑战极限，而且这两种极限挑战还存在无解的问题。因为物理世界和人耳机理存在一些特性，即便现场观众所听到的声音也有两个难点必须考虑到：

（1）演播室音响系统，对于声音的渲染处理会损失原始声音特性或者增强无关特性，这将会加重人耳听到声音的误差。

（2）现场听到的声音，也会收到演播室的建筑声学设计和扩声系统设计的影响，这其中还包括了声学两个特殊效应的制约：

其一就是哈斯效应（Haas effect; Precedence effect），这是一种双耳心理声学效应，声音延迟对人类方向听觉的影响要比能量大小的影响更大的效应，故此也被称为优先效应。

哈斯效应是亥尔姆·哈斯于1949年在他的博士论文中描述的，常常利用哈斯效应来调整会场和音乐厅的声音和谐。举个简单的例子，若你到电影院坐到了靠近音箱的位置，那几乎听到的声音几乎都是附近这个喇叭发出的了。事实上现场观众根本就无法区分21位歌唱者在合唱时候的差别。

其二就是掩蔽效应（Masking Effect），简单说是环境中的其他声音会使人类听觉对某一个声音的听力降低。

当一个声音的强度远比另一个声音大，当大到一定程度而这两个声音同时存在时，人们只能听到音量更大的那个声音存在，而觉察不到另一个声音存在。其中，低频声的掩蔽范围大于高频声的掩蔽范围。也就说，现场观众可能根本就无法辨认出到底有几个歌唱者的声音，何谈再从中识别出特征了。

当然还有更多物理定律和声学模型的制约，即便上面的哈斯效应和掩蔽效应实际上也造成了现场听众可能无解的情况，因为可能压根就没有获取到所需要的物理信号。这对于电视机前面的观众就更为苛刻了，因为即便数字电视的音频编解码也是有损压缩的，这实际上又损失了众多声学特征信息，不管是MP3还是AAC都利用了人耳的掩蔽效应进行了压缩，何况电视在家里的摆放同样也无法避免建筑声学和音响系统的制约。

因此，“最强大脑”节目组所追求的难度和效果实际上在执行过程中已经严重折扣了，这次比赛更是考验深度学习算法和人脑识别的差异，而刻意回避了物理感知中的难题，和深度学习在测试集的测试结果没有本质上的差别。

事实上，百度科学家对于这个问题是清晰认识的，百度语音识别技术负责人李先刚坦言：

就现在的深度学习或者相关技术来说，处理同一个麦克风捕捉的多人同时说话的数据确实很难做，还有很多地方值得我们去挑战。但就实际应用场景来说，有其他方法可以较好地解决该问题，比如强化定位，正如人有两个耳朵可以定位声音源，在实际应用中我们可以采用多个麦克风来加强目标声源的声音，这样就能较好地分辨目标声源和周围嘈杂。

吴恩达老师也表示，此次百度在CES上推出的小鱼（Little Fish）机器人中配置了2个麦克风，可以一定程度解决多人说话的问题，未来还可以用4个、7个甚至更多麦克风来处理该问题。这也正是为何我们声智科技一直追求提升声学传感技术的原因所在。

因此，这里小结一下，以观众所感受的难度来描述实际挑战的难度是有夸大成分的，夸大宣传会误解大家对于技术发展的正确认知，从而拉大了人们预期，这对于国内的研究和产业进步都是非常不利的。我们从国外媒体中所看到的文章，其风格相比国内都是比较严肃保守的，包括极其风光的谷歌和亚马逊，谷歌选用AlphaGo挑战围棋非常聪明，避过了人工智能的缺点，即便如此也仍然非常谨慎。亚马逊的Echo其实已经非常成功了，但是Echo几乎不提语音识别率的问题，即便对于远场识别尤为关键的麦克风阵列也是排在了次要位置甚少强调，这都是非常聪明的。因为技术的发展还远没有达到国内宣传所夸大的程度。

另外还要补充说下聪明的苹果，大家不要忽视了这位低调的巨头，Siri积累了那么多年，优势是在近场语音交互，而智能耳机就是最好的落地，苹果并没有缺席人工智能，也不会错过下一个计算平台，而是悄悄的把握住了另外一个巨大的市场机会。

2、孙亦廷的挑战更大，小度机器人也展现了百度深度学习的水平

综合上面分析来看，若电视场景中所表现出来的和实际工作过程都是准确如实的（抱歉毕竟只是娱乐节目，而不是公开论文可验证，谷歌的AlphaGo再次聪明的避过了这个验证难题），孙亦廷其实面临的难度要超过百度的小度机器人，若公平来说，人类和机器人所面临的挑战难度都是极大的，百度的小度机器人也展现出来了吴恩达老师带领百度人工智能团队领先的水平。

这个挑战最大的难度在于：节目组设计的挑战是从片段的说话声中辨认出歌唱者。周杰伦给3个歌唱者的对话都是比较简短的，而且这个对话又被简单处理了（只是截取，和加密也没啥关系），我们从爱奇艺的视频中抽取了这三段视频，其声纹特征如下（非现场原始音频，已经被压缩很大，仅供参考）：

从图中可以看出，三个人的声纹特征差异还是非常明显的。但是这仅仅只是说话的声纹，大部分唱歌的声音和说话的声音都是不同的。我在雷锋网(公众号：雷锋网)《声纹识别技术的现状、局限与趋势》公开课中提到过，声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分，这种独特的特征主要由两个因素决定：

第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。每个人的发声腔都是不同的，就像指纹一样，每个人的声音也就有独特的特征。

第二个决定声音特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

显然，说话和唱歌的时候无法改变人类发声的器官，这也是声纹识别挑战所能辨认的基础，否则真就成了Mission Impossible。但是人类操纵发声器官的方式是不同的，这就是很大的难度。和上面的方法一样，我们也将第一位歌唱者的说话片段和唱歌片段从爱奇艺视频中抽取如下:

从图中仍然可以看出，歌唱者说话和唱歌的声纹没有本质的差别，但是对于基于深度学习技术的小度机器人来说，这项挑战确实难度是极大的。节目中截取后的录音片段，一整条语音不超过10个字，有效时间小于 3s，而且断断续续，这容易造成声纹特征的缺失。更加困难的是，必须从这有限的数据中推断出唱歌时候的声纹是否匹配。

之所以说孙亦廷的挑战更大，是因为除了人类自身感知记忆的缺陷，还有就是孙亦廷必须手动按键来放大声音进行比对确认，这个过程是必不可少的，而上面提到了，小度机器人的处理方式肯定要比人类更简单，否则也没有必要在每个歌唱者面前放置麦克风。

另外，百度IDL实验室主任林元庆的描述还欠缺一些关键信息：“在此基础上，我们收集少量的，比如1000个人在特殊场景下的声音，比如说唱歌。在比赛之前我们知道有唱歌内容，但是不知道要唱什么歌，于是去收集一些歌来训练模型，让模型能够更准确的识别说话和唱歌时的声音差异。”

这没有准确说出这次训练的数据来源是不是包含了21位歌唱者的唱歌数据，这非常关键，孙亦廷很难同时记忆21位歌唱者的唱歌声纹，但如果机器事先训练了，则事实上比人类提前积累了特征数据。

这里小结一下：百度小度机器人的挑战难度确实是很大的，也展现出了百度在吴恩达老师带领下深度学习的积累和水平，但是相对于Google的AlphaGo来说还是欠缺一些说服力，百度应该公开可以测试或者应用的技术，而不仅仅只在娱乐节目中展现技术水平。当然节目组可以继续加大这项节目挑战的难度，比如将21个人增加到100个人，同时考虑人声的差异分布，还可以考虑加入现场的影响等等。

3、计算机识别能力超过人类毋庸置疑，但仍然有局限性

我们知道，机器的计算和存储能力都已经超越了人类，识别能力超过人类也是毋庸置疑的事情。但是当前的语音识别能力还没有全面超越人类，至于远场的语音识别，因为还涉及了物理世界模型的问题，这个过程更加长远一些。我们估计，凭借现在数据的增长和新算法的迭代，3~5年内出现人类普遍应用的语音交互产品还是很有可能的。至于图像识别，从当前ImageNet的测试来看，从样本测试精度已经超过了人类，但是若落地到实际场景，这个方面机器相比人类还有非常大的差距，比如大家经常忽略了图像识别的核心摄像头光学模组，而到当前为止，我们的核心光学模组还都是国外所供应的。

人工智能时代，是不是可以迈过PC时代和移动时代的局限，不再是从器件、芯片、OS、算法清一色的国外技术，而真正诞生出我们国家自己的核心技术？我们期望着国内的研究机构和巨头公司能在基础研究和核心技术上积累优势，而在模式营销少花点精力，也不要浪费资源抢占创业公司的应用类小市场，因为巨头的对手应该是国外的Google、Facebook、Apple、Tesla等等这些雄心改变人类的巨头。

理念和价值观决定了一家公司的走向，赚钱不是成功唯一的标准，贡献一点为人类发展有价值的事情，即便失败了也是值得怀念和历史记忆的，这也是我带着兄弟们出来创业的核心动力。

4、单凭计算机领域的进步无法完全解决物理世界的问题

深度学习带给了我们无限的想象力，但是我们仰望星空的同时，也要脚踏实地，正确认识计算机进步带给我们的便利和局限。计算机学科的方法论进步，其实没有改变这个世界的物理模型，也不代表计算机领域的符号主义就此衰落，因为深度学习的举万反一和人类的举一反三还是背道而驰的。深度学习更应该结合符号表示和推理模型融合发展，只不过这是喜马拉雅山的北坡，技术的难度更加巨大。

现在的深度学习确实带来了极大的进步，主要是在识别领域的突飞猛进，因为物理研究总是想弄明白“为什么”，然后再据此构建模型和推理。但是现在深度学习几乎不用花费精力探讨这个问题，只要拥有了海量数据，不必关心“为什么”，也不用深究特征，数据的规模和精度才是关键。从这个层面来看，我们就能非常容易理解这种方法的局限，深度学习当前还仅适用具有确定的规则和目标，并且基于现有知识结构，其答案也是封闭链条的场景，也就是我们常常提到的一些垂直场景。从这个层面来看，通用的语音识别就存在极大的不确定性，很难达到人类的程度，而且语义理解（NLP）显然仅仅依靠大数据和深度学习是无法解决理解人类语言问题的。

但是未来终究是人工智能的时代，因此建议投身于人工智能领域的广大学子，除了奉献于计算机的进步，也要关注物理领域的进展，图灵奖和诺贝奖都是推动这个世界进步的动力，而未来更多的奖项应该是我们中国学子的。

最后，我想用张钹院士的一句话作为总结：

五十年后的事情可能我说不清楚，但是我可以说说三五年之后的事情。很多人说究竟现在是人工智能的春天还是夏天？有人说春天，因为正在蓬勃发展。有人说夏天，因为有点热过头了。但是我说现在是人工智能的秋天。秋天有两个含义：一是秋天是收获的季节，我们有很多成果。二是说秋天，是因为冬天就在前头。

本文作者：陈孝良

本文转自雷锋网禁止二次转载，原文链接