转载自公众号【谈人工智能】,转载请联系授权

语音交互是指人与人、人与设备之间,通过自然语音进行信息传递的过程。人与人之间通过语音来传递信息、交流感情等等,其实就是一种最基本的人与人之间的语音交互。

为什么VUI这个概念(Voice User Interface)在最近几年又变得的火起来了呢?因为人们发现除了人与人之间可以通过语音来交互之外,已经可以慢慢地对一些智能设备(如手机、智能音箱、车载系统等),通过语音进行交互下达指令或者获得反馈等,所以现在的语音交互的概念已经不仅仅局限于人与人之间了。

尤其是对语音行业的研究来讲,我们的注意力更主要的是集中在人机交互上,所以很多时候VUI这个概念就是特指人机语音交互。

1. 语音交互的4点优势


那么,为什么我们要探讨人机语音交互呢?是因为语音交互本身独有的优势,我把它总结为这样四点的优势

一、语音的输入效率比较高

相比于传统的键盘输入、文字输入,语音输入的速度,语音输入的效率至少是传统输入方式的三倍以上,这个是在百度开放平台上做过的一个数据统计。

输入效率高,体现在以下几个方面:

1、通过语音去检索信息的效率会比较高,尤其是针对复杂的query

在这种输入方式不变的场景下,通过语音的交互效率会更高,比如说当我在家里看电影的时候,我可以直接对着电视机说出我要看的电视节目或者是电影名称。这种交互来讲,通过语音的方式,直接下达指令会更方便。

2、语音交互可以跨空间,对于跨空间的交互方式更加便捷

跨空间的含义,我们可以简单地理解为远距离的语音交互,这里的一般称之为远场语音交互或者是远讲,远场的意思是说我的说话人距离我的设备的麦克风的距离要比较远,一般来讲至少是1米以上,很多时候是3到5米,甚至是更远。

在这种跨空间的场景下,一般传统意义上的文字交互,很多时候是不可能操作的。比如,当距离智能音箱(手机)比较远的时候,不可能通过文字的方式去进行交互,所以在这种场景下,语音交互就显得更加必要、高效。

3、语音支持组合指令输出

即我们发出语音指令的时候,可以一次性的下达多条指令,然后由机器识别之后,分别去执行这些指令的意图。

举一个例子,以家居的场景为例,我要看一部电影,其实可以对我的电视机这样说:“播放周星驰的电影、电影要四星以上,并且都是免费观看的”。这样一句话当中,蕴含了多个层次的含义。

这样的话,通过语音,一句话就可以把我的多层次的指令通过组合的方式一起来下达,并且智能机器会通过解析我的指令含义,去依次调用相应的skill来满足我的指令的下达方式。

这些就是语音输入方式比传统输入方式效率高的原因。

二、解放双手和双眼,更安全

其实谈到解放双手,我们马上会想到车载场景。其实对于车载场景来讲,我们是绝对不可能在车上一边开车一边通过手机用手敲汉字的方式进行交互的,这个也是绝对不允许的。在车载场景里,如果你想设置导航、听音乐、听广播,也是必须要用语言来进行交互的。而在现在很多的汽车上,其实也都已经内置了车载语音交互的功能。

除了车载场景之外,还有其他的场景,比如说医疗场景:医生在跟病人或者病人家属沟通病情时,他可能同时双手还要去操作各种各样的复杂的医疗设备,那这时候,如果医生需要记录病历,通过语音的方式来做就是一个比较必要的一种方式了。

三、使用门槛低

其实我们每个人都有经验,我们人与人之间的交互,最早本来就是用语言进行交互的。一个还不会写字的小孩子在慢慢长大的过程当中,与父母与其他的朋友之间的交互,都是通过语音来进行的,这是一个我们人类天然就具备的交互能力。

尤其对于小孩子、一些老人、一些有视觉障碍的人群,他们更是没有办法通过文字的方式来进行交互,所以语音交互的方式会为这些人带来非常大的便利。此外,语音交互的学习成本比较低,它的交互方式更加自然,所以它的上手成本也比较低。

四、可以传递更多的声学信息

我们知道,一段语音不仅仅包含这段语音所承载的内容信息,还包括其他的信息,比如声纹信息、身份信息、性别信息(说这段话的人的是男是女)、年龄信息、情感信息(指的是人在说这段话的时候他的感情是怎么样的,它是生气的还是高兴的还是悲伤的)等等。

这些信息都可以通过一段语音信号借助各种技术把它解析出来。那么相比于传统文字的这种干巴巴的交互方式来讲,语音它能够传递的信息会更多。

2. 语音交互的3点劣势


这些就是语音交互的几点优势。但是,对于一种交互方式,尤其是人机语音交互这样一种新型的交互方式,自然也有一些劣势

一、接收效率比较低

在刚刚的分析中,我们一直是集中在语音输入的方式。而对于信息的接收,我们则是从输出的角度来讲的。语音的输出其实是一个线性的输出。

什么意思呢?也就是说当你在听别人说一段话的时候,你很有可能需要等到对方把这句话全部说完以后,或者是说完大部分以后,才能够理解对方想说的话是什么意思。

文字交互则不太一样。当我们在看一段文字的时候,我们很可能会跳过一些没有意义的文字,去直接掌握这段话的全局意思。可能大家会有这样的体验,在用微信的时候,相对于收到的语音消息,更愿意阅读一些文字的消息。

因为看一段文字,我们可以直接的很快速的去掌握这段文字的中心内容,而如果我要去听一段语音的话,那我必须要把这段语音从头到尾的完整的听完,我才能知道对方写了讲的是什么。所以这一点上,我们说语音输出是一个线性的输出,对于信息接收者来说,它的效率是比较低的。

二、环境复杂

我们面临的各种各样复杂的生活环境,这一点也是语音信号处理课程所要着重解决的一个问题。

我们每天都被各种复杂的环境所包围。这些环境里可能会包含着各种各样我们不需要或者是不想听到的声音。

当这些声音与我们想要听的那些声音交叠在一起的时候,就会对我们的交互体验产生非常大的影响,所以复杂的声学环境是我们在设计人机语音交互系统时,所必须考虑的一个问题。

三、用户的心理负担

这一点,也是对于语音交互设计者来说最难把握的一点。因为用户在实际使用这个人机交互系统的时候,他的很多行为往往是我们没有办法事先预期的。

对于同一个交互场景,不同人的交互方式很有可能会不一样。从用户的心理体验来说,可能会有一部分人的人机语音交互的习惯还没有培养起来,也可能会有一些人,他不太愿意对着机器去通过语音来说话,尤其是身处在一个比较开放的需要顾及个人隐私的场景的时候更是如此。

3. 总结


通过以上的内容,我们可以了解到语音交互的本身是有它的优势的,当然也有它不足的地方,而不足的地方正是需要我们去着重解决的一些问题。

特别感谢

本文整理自深蓝学院《语音信号处理》课程,感谢宋辉老师的细心讲解,以及深蓝学院提供的优质课程,再次感谢!

语音交互有哪些优势与劣势?相关推荐

  1. 语音交互设计探究——以车载场景为例

    从Siri .Amazon echo Alexa.google home .小冰.国内的叮咚.天猫精灵.小爱同学以及各种你听说过的,没听说过的.然而,随着技术的进步,语音交互将运用到越来越多的场景: ...

  2. 超全面的语音交互知识总结:从原理、场景到趋势

    1. 什么是语音交互? 语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递.一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程: (1)ASR 用于将声学语音进行分析,并得到 ...

  3. 面向NLP的AI产品方法论——寻找语音交互的业务场景

    本系列文字是一位创业者的投稿<面向NLP的AI产品方法论>,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第一篇. 这是一个创业者的复盘,主要内容分为两个部分. 一个创业者成长的心路 ...

  4. 专访思必驰初敏:离开微软、放弃阿里,一个语音交互的“实用主义者”

    栏目简介:激荡六十年,人工智能已经起航.然而在未来面前,我们都还是孩子.究竟是"奇点临近"?还是泡沫行将破灭?为了解惑,<AI名人堂>将汇聚领航者智慧,和你一起探索前行 ...

  5. 2018年智能化发展趋势:语音交互全球开战、AI终端趋势显现

    来源:雪球网   作者:西木财经 美国知名研究机构CB Insights近日发布重磅报告<2018年必看的人工智能热门趋势>(Top AI Trends To Watch In 2018) ...

  6. 语音识别热词_出门问问 TWS 耳机语音交互解决方案

    随着芯片.算法商在技术及应用方面的演进,尤其是连接.降噪方向的重大突破,越来越多的手机及耳机厂商推出了自家功能丰富.交互舒适的 TWS 耳机. 近日,出门问问新品发布会上推出的 TicPods 2 系 ...

  7. 硬核干货,老曹解密“语音交互”背后的黑科技!

    点击▲关注 "中生代技术"   给公众号标星置顶 更多精彩技术内容 第一时间直达 第 6 期出席<大咖来了>直播栏目的嘉宾是百度 DuerOS 首席布道师曹洪伟,进行了 ...

  8. 百度DuerOS与高通合推手机语音交互解决方案,谁会欢喜谁要愁?

    李根 假装发自 夏威夷  量子位 报道 | 公众号 QbitAI 一个加速智能手机AI化的消息,同时可能也是一次加速语音方案洗牌的合作. 美国夏威夷时间12月7日,在高通年度骁龙技术峰会上,百度Due ...

  9. 微软的语音交互“滑铁卢”:Cortana小娜悲惨收场,未来路在何方?

    热点追踪 / 深度探讨 / 实地探访 / 商务合作 "hi Siri,给我讲个笑话""天猫精灵,今天天气怎样""小度,为我导航最近的加油站" ...

最新文章

  1. 深度特征合成与遗传特征生成,两种自动特征生成策略的比较
  2. Transformer: Training and fine-tuning(六)
  3. mac更新java失败解决办法
  4. java的正则表达式 CPU_小心踩雷!一个小小的正则表达式竟把CPU拖垮......
  5. 逆波兰式数学表达式求解
  6. (45)FPGA同步复位与异步复位(同步复位)
  7. 七牛云存储,图片储存
  8. 批量生成横断面_批量生动生成填充图案的边界线
  9. memcpy-avx-unaligned/strcpy_sse2_unaligned崩溃记录
  10. Ubuntu源码安装gcc-10
  11. GRE阅读高频机经原文及题目之能源消费(逻辑)
  12. java读取txt存入数据库,Java 读取txt文件,读取结果保存到数据库
  13. 代码质量(权威精选植根于开发实践的最佳读物)
  14. 400企业智能服务器,全球领先的企业级服务器、存储、融合系统及解决方案-H3C与HPE...
  15. 关于网络渗透的过程以及感想记录
  16. 未来五年,做淘宝电商不做好私域流量,将寸步难行!
  17. VS2010 混合模式程序集是针对v1.1.4322版的运行时生成的 在没有配置其他信息的情况下 无法再4.0运行中
  18. CTFshow—MISC图片篇(基础操作)
  19. UE开机入网流程及RRC连接建立
  20. 关于网络密码的可怕真相

热门文章

  1. php图片滑动的属性,使用css怎么实现图片的滑动效果?(示例)
  2. thinkphp中mysql添加数据_thinkphp添加数据 add()方法
  3. vue输入框输入触发事件_.vue文件中监听input输入事件oninput详解
  4. 金蝶k3财务接口_金蝶云为企业成长而生,让工作更高效!
  5. java方法中的循环里的变量_Java中循环声明变量方法
  6. 孪生神经网络_基于局部和全局孪生网络的鲁棒的人脸跟踪
  7. tcp丢包一定会断线吗_有遗传就一定会脱发吗
  8. 页面滚动事件无效小记
  9. (转载)c/c++笔试面试题(2)
  10. 产品入门一——十分钟读懂产品经理