“智能音箱”技术详解

如今智能语音控制特别火热,智能音箱、汽车、手机……

君子动口不动手,下面讲讲如何实现“动口不动手”?

语音控制的流程

声音采集—>降噪—>语音唤醒—>语音转文字—>语义理解—>回复文字和指令—>文字转声音—>播放声音

举例:

1、用户说“天猫精灵,今天天气怎么样?”

2、“天猫精灵”被语音唤醒模块接收到,并判断为唤醒词,然后开始记录后续的“今天天气怎么样”这段语音,并发送给云端服务器。

3、服务器把这段语音,转化成文字“今天天气怎么样”,交给语义理解服务器

语义理解服务器把“今天天气怎么样”这段文字,拆解成“事件=查询天气,时间=今天”这段控制指令回传给设备。

4、设备根据时间和本机地理位置,找天气服务器查询天气,并获得天气的的文本数据“今天要下雨”

5、设备把“今天要下雨”这几个字发给文字转声音的服务器,服务器返回“今天要下雨”这段声音,由设备喇叭播放出来。

(3,4,5这三个动作,可以拆开由各个服务器单独完成,也可以由一个服务器统一完成。)

(车载系统做的比较简单,主要靠本地识别,落后智能音箱至少5年。)

各模块的功能

降噪(AEC)通过麦克风阵列,判断人在哪个方向,增强那个方向的拾音效果。这样可以在5米之外就能听到人在说话,足够一间房间使用了。

还可以在本机播放音乐的时候,滤除麦克风接收的本机音乐,使得智能音箱在播放音乐的时候也能被唤醒。

这就是大家讲的双麦降噪、7麦阵列之类的。

国际上做的比较好的是科胜讯(Conexant),国内做的比较好的是科大讯飞,国内现在有几十家小公司在做语音降噪算法

(然而这些小公司很快都会挂掉,原因见文章后面)

唤醒智能音箱的麦克风在7x24小时接收外部声音,持续分析这些声音,看看是否能检测到唤醒词(例如前面讲的“天猫精灵”),一旦检测到了唤醒词,就把之后的语音传给语音识别服务器。

国际上唤醒词做的最好的是Sensory,国内的主要是讯飞等语音识别公司。

像智能手表上,一般会有一颗专门的低功耗芯片,内置唤醒词算法,随时打开等着你说话。不需要占用CPU资源,非常省电。

语音转文字(ASR)语音并不能直接拿来分析成意思,必须要转化成文字。这是个成熟的技术了,以前还会有在现在大数据算法的辅助下,结合上下文理解,已经可以非常准确的把声音变成文字了。

语义理解(NLP)自然语言处理,就是把人的语言转化成机器能够理解的数字,分解开,并回复响应的语言。

大家觉得智能音箱是“智障音箱”,主要还是因为这里,现有的技术只能做到固定的问答,而无法像人类一样思考。

再加上人类语言有大量的不同表达方式和歧义语句,理解错误的地方也会非常多。例如“杀死猎人的狗”,杀死的是猎人,还是狗?

只有NLP语义处理能够接近人类的理解了,机器的语音交互,才真的能让用户正常对话。

文字转语音(TTS):这个大家都很熟悉了,不管是机械感强烈的讯飞,还是越来越俏皮的siri,或是高德地图的志玲姐姐声音,都是依靠TTS语音合成,把文字变成声音的。

做这个语音合成的非常多,早些年有放在本机端的,现在一般都是云端来合成。

主流架构

经典架构:降噪用专门的DSP芯片

主控用Android平台,

语音识别、语义识别、语音合成三个放在云端

控制和显示放在本地

现有的国产智能音箱,全都是这个架构的

做的最好的:Amazon Echo全球销量最大的,是Amazon Echo系列,几年时间卖了3000万台,直接导致国内2017年智能音箱公司大量涌现。

Echo和其他智能音箱最大的区别是:所有的控制,都放在云端了。哪怕你家的WIFI台灯和Echo是在同一个局域网,这个灯也是从云端直接控制的。

把控制也放到云端的好处是:智能音箱本身不需要升级任何程序,就可以支持所有的智能硬件。

做的最简单的:Google Android ThingsAndroid Things在2018CES刚发布了新版本,做的比Amazon更省事,把前端语音降噪都放在云端去做了。算法更容易更新,随着时间的发展,能够提供比本地降噪更优秀的降噪效果。

还能够降低硬件要求,从而降低硬件成本。

智能音箱发展趋势

没屏的降成本,越做越简单带屏幕,做复杂交互,作为中枢多个房间,分布式拾音网络云端化,能放在云端的服务都会放上去。做降噪算法,会比较难活下去传统语音识别企业,被互联网打压(写太长了大家不爱看,具体原因后面再讲。喜欢看的求个“赞”,鼓励一下小编继续敲键盘吧~~)

总结

智能音箱,美国卖的很好,国内卖的不怎么样。

虽然不知道谁能一统江湖,但以后一定是大势所趋。

中国卖的不太好的原因,主要是汉语太复杂,稍微调戏一下,智能音箱很容易就变成了智障音响了。

还有一个原因是,很多中国人生性喜欢和人交流,不喜欢和机器交流。明知道是个机器,还“天猫精灵”“叮咚叮咚”“小爱同学”之类的叫个不停,是不是感觉自己好傻?

本文转自:https://blog.csdn.net/weixin_42082222/article/details/80529850

智能硬件语音交互流程分析相关推荐

  1. ROS实战(一) 语音交互系统的学习:初步了解语音交互流程

    前言 虽然说目前语音识别,合成这块技术已经很成熟了,没什么可以拓展的地方了,但是还是想自己实现一下在ros下进行语音识别以及熟悉整个流程,感觉还是挺cool的. 目前这块属科大讯飞和百度语音这两公司做 ...

  2. 语音信箱流程分析 voice mail number

    该文档主要是基于Android JB 版本,和可能和KK版本有一定的差异.如果在KK上面有不一样的地方,也可以参考JB上面的思路来分析相关的问题 以下分析是基于mtk的源码,不是Android 原始的 ...

  3. 智能座舱语音交互自动化测试

    随着智能网联系统的快速迭代发展,智能座舱的系统功能越来越丰富,人机交互方式越来越丰富,车载语音交互具备的独特优势:降低驾驶者对车内设备的操作依赖.增加驾驶安全系数,完善车载语音的用户体验,保证语音的准 ...

  4. SSL/TLS协议交互流程分析

    本文参考 SSL/TLS协议运行机制的概述 tls运行机制,这里不细说,建议细看 HTTPS与TLS The Transport Layer Security (TLS) Protocol v1.2 ...

  5. Teamtalk登录流程详解,客户端和服务器交互流程分析

    提示:要学习客户端和服务器如何交互, 就是去找它们通信协议中对应命令发送过程. 对于登录过程,对应登录命令就是去分析CID_LOGIN_REQ_USERLOGIN 客户端登录模块 客户端工程一共包含十 ...

  6. 微软How-old(照片识别年龄)数据交互流程分析

    目标网站:http://www.how-old.net/ 网站功能:上传照片,服务器返回数据.显示照片中人物性别与年龄. 简介:通过流程梳理,网站通过Ajax将用户上传图片或是在线图片以post形式传 ...

  7. 硬件加密算法HITAG2流程分析

    一.钥匙内含应答器(TP),由BCM控制防盗器控制基站(BS). 1.TP有自身的独一无二的标识码keyID(32bit),在登录钥匙的时候会被记录到BCM中. 2.密钥码Secret key,SK( ...

  8. 百度财报首秀智能音箱交互次数,语音交互的春天来了?

    百度刚刚发布了2019年全年及第四季度财报,总营收1074亿人民币.单季营收289亿人民币,除了营收上继续保持双向增长,人工智能新业务也展露出一些新气象,并首次对外披露了这样一组数据: 小度品牌第一方 ...

  9. 准备开发一个智能硬件,得先看这篇文章!

    一个智能硬件生命周期内所需要经历的全部流程,以及产品经理需负责的相关工作分为以下各阶段, 我们一起看看这个过程有多长,又有哪些经验可以分享. 一.市场分析 如同互联网产品一样,除了在立项之前需要对市场 ...

最新文章

  1. 前序,中序,后序遍历
  2. android surfaceview 图片,为啥从SurfaceView中获取不到图片?
  3. Symantec Backup Exec 2014 备份Exchange 2013之二安装主备服务器
  4. Ceph rbd cmd练习
  5. 程序员如果不能干到退休,那程序员的路何去何从?
  6. 索尼推出 PlayStation 漏洞奖励计划,最严重漏洞5万美元起步
  7. 14.TCP/IP 详解卷1 --- DNS:域名系统
  8. 架构之美第五章-架构概述
  9. 双人游戏根据胜负关系匹配
  10. 事业单位计算机技术岗工资,事业技术工资待遇
  11. 什么是生成式对抗神经网络GAN
  12. 服务器系统报ata6,ATA_5.4考试管理系统使用手册[最终版].doc
  13. 卸载精灵(bue directx) r4.0 完美版 绿色
  14. 构建一阶谓词逻辑和有限域上多项式方程的同构
  15. get技能 TCP(ip socket 关系)通信的三次握手和四次撒手的详细流程(顿悟)
  16. 机器学习中火爆的对抗学习是什么,有哪些应用?
  17. 快速获取iOS APP中的所有素材
  18. 如何无损合并video.m4s与audio.m4s为mp4文件
  19. pta 哥尼斯堡的“七桥问题”
  20. 【cocos2d-x入门实战】微信飞机大战之十三:游戏场景过渡

热门文章

  1. 打印由**组成的实心等腰三角形和镂空等腰三角形
  2. 什么都是的天翼是什么
  3. 使用Go开发的数字书架应用 | Gopher Daily (2021.07.05) ʕ◔ϖ◔ʔ
  4. 使用PageInfo把list手动进行分页处理
  5. obs-studio源码分析:窗口、显示器(桌面)捕捉(转载)
  6. java 汉字转换拼音
  7. linux 使用 cf-811ac
  8. Win任务栏图标异常解决
  9. chmod 命令 (chmod 0660)
  10. element中upload组件中的确认删除问题