由 CCF 中国计算机学会主办,雷锋网(公众号:雷锋网)与香港中文大学(深圳)承办的全球人工智能与机器人峰会 CCF-GAIR 大会进入第二天。在智能助手专场,中国科学院声学研究所副研究员、声智科技创始人陈孝良带来了以《人机语音交互的技术趋势与商业机遇》为题的主题演讲。

雷锋网注:声智科技创始人陈孝良

语音加速人机交互方式的变革,可能会重新定义很多消费电子。极端一点,如果将来所有消费电子都支持语音交互,那这个市场很大,基本上会在全球范围内重构整个产业链条。

首先,麦克风在性能、低功耗方面要做很大改进。事实上,整个全球市场,国内的麦克风产业占比很小,即便国内有些麦克风利用国外的技术来进行生产,但核心技术还是不在国内。而且我们现在做的麦克风是标量麦克风,只能取一个物理量,如果要解决很复杂的声学问题,就需要矢量麦克风。当然,矢量麦克风还有点遥远。

第二个挑战是芯片。我们现在所有的消费电子,特别是偏重人工智能的,前端大量用了 ARM 架构,GPU 比较少。GPU 用在服务端离线数据的训练,这是我们很大的问题。比较灵活的 GPU,国外三家巨头和国内基本没有太大关联。

第三个挑战是算法。声学是每个国家比较封闭的领域,因为声学主要是为军工服务,所以各个国家相互保密,只能各自发展。比如大量使用的机器学习,国内在做改进性技术,我们如何在原创方面比国外领先,这是很大的技术挑战。

第四个挑战是商业化挑战,它又分为三个层面。

  • 第一是产品。国外最著名的是亚马逊 Echo,国内有京东、联想、小米的产品。这些产品有的做过评测,我相信很难得到大家 100% 的认同,甚至大家能给 80 分就不错了。这是个比较大的问题。

  • 第二是内容和服务。国内的内容和服务比较割裂,腾讯在国内占有很大的音乐版权,百度有很大的搜索,交易大量在阿里,但亚马逊就把很多优势集中在一起。所以国内的产品很难避免和巨头合作,但是三家巨头如何合作?怎么选你的产品有很大的缺失。

  • 第三是知识产权,标准。亚马逊、微软都在联合生态做标准,甚至包括 ARM,本身我们也是 ARM 生态联盟的。如果大家查专利,可以看到中文的专利也不是国内公司占领先地位。2010 年到 2015 年的排名顺序,我们挤不进前列。

刚才说了很多挑战,下面和大家交流一下技术的发展趋势。

  1. 麦克风现在是标量麦克风,下一步做智能麦克风,最后要做到矢量麦克风。这么大的会场,如果大家小声交流,这个声音对机器来说就很难处理。另外芯片到底是什么架构?低功耗,对接云端,都是需要我们考虑的问题。

  2. 下一代 AI 技术是融合的。麦克风和视频、雷达的融合,声光电三个学术合在一起应该怎么做,这也是下一步需要整个研究和开发的。

  3. 算法与模型,我们做得更多。比如我们的声源定位,目前只能跟踪一个目标,能不能同时跟踪多个目标,这是非常重要的,包括离线唤醒、离线语音识别。另外,机器学习是不是只用大数据,还是可以用别的方法做一些小样数据的处理,进行冷启动,这是我们下一步要研究的方法。

  4. 音响不存在死不死的问题,它是除了笔记本和手机以外,消费电子里面拥有量最多的。但我们做这个事情需要数据,特别是远场数据,不像近场数据可以直接录,这是非常严重的问题。冷启动的时候必须要选一个品类获得启动数据。

在产品定位方面,国内外也有很大不同。

国外亚马逊 Echo、谷歌 Home、苹果 Homepod、微软 Invoke,国内就是叮咚智能音响、联想智能音响、小雅智能音响、天猫精灵。

国外的产品很忌讳叫 Speaker。当时苹果推Homepod,大家都就猜是不是会带“Speaker”,结果选了Homepod,它天然加了两个因素,一个是Home,一个是pod,这和国内的定位有很大的差异。

现在智能音响的产品玩家很多,不光是巨头,包括国内的、深圳很多厂商都做,这里面比较严重的问题是亚马逊对生态链的重视,可能远不如我们想的那么重要。因为亚马逊比较喜欢玩自由生态。前段时间亚马逊和苹果联合降价就可以看出,它可以把产品突然降 100 美元,如果考虑生态链,这是非常严重的,可能导致很多厂商的产品卖不出去。

远场语音交互的开始是智能音响,但是将来绝对不仅仅是智能音响,其他人也不会把技术限定在智能音响,还包括很多其他的产品。

本文作者:六爷
本文转自雷锋网禁止二次转载,原文链接

陈孝良:为什么国内做不好智能音响?相关推荐

  1. 专访声智科技陈孝良:把自己嫁给公司,伟大都是熬出来的

    陈孝良是一个健谈的人,在雷锋网新智造抛出任何一个问题后,他就此可以围绕声智科技和当下行业发展状况侃侃而谈:他也是个很有耐性的人,在采访的四个多小时里,他甚至都没停下来多喝几口水.如果创业是一场长跑的话 ...

  2. 声智科技陈孝良:没有好的语音数据收集,语音识别和交互不可能做好

    声智科技是一家人工智能交互与声学解决方案服务商,从事语音交互芯片.模组和设备研发.设计.制造并提供整体声学技术解决方案.简单理解,他们跟思必驰.云知声类似,不直接提供面向TO C的产品,而是做产品公司 ...

  3. 陈国良、孙永强教授获中国计算机学会「终身成就奖」,为国内并行算法和编译技术先驱...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中国计算机学会"终身成就奖",今年花落深大.上交. 这个奖项,只颁给"在计算机领域工作40年以上"的 ...

  4. 观点PK_倘若做不好AI,云服务商还能勇往直前吗?

    AI强大却不独立存在,如今已经成为人们普遍接受的理念之一. 在这个火热的时代,AI技术不是一个独立的产品,而是一种"基本生产力",它适用于大部分经济活动,可以让各行各业都产生&qu ...

  5. 带4g无线的高性能服务器,全网通还是4G?做一个智能4G的全网通简直完美!

    原标题:全网通还是4G?做一个智能4G的全网通简直完美! 在2G/3G时代,语音和数据业务分别承载在两张不同的核心网上,控制语音相关的叫电路域(CS域:Circuit Switch),控制数据业务相关 ...

  6. 国内首家智能心电SaaS平台“琅瑞医疗”获Pre-A轮融资,磐霖资本主投...

    3月14日消息,近日,磐霖资本Pre-A轮主投了成都琅瑞医疗技术股份有限公司(以下简称"琅瑞医疗"). 琅瑞医疗是国内首家智能心电SaaS平台,创始团队在心电临床和网络平台等领域有 ...

  7. 道理都懂,为什么还是做不好需求分析?

    在产品日常工作当中,我们会接收到各种各样的需求,需求可能来源于用户/业务同学/产品本身/老板.在进行设计产品/功能之初,产品得先进行需求分析,根据定位,判断需求真伪,最终制定合理的需求执行方案.然而很 ...

  8. 陈国良院士将出席“首届对象存储技术与应用大会”

    时代的脚步永不停歇.在企业向数字化,互联网转型的过程中,数据成为企业的核心资产.面对不断快速增长的数据,原来的基础架构已经不堪重负.如何保存和管理,如何让IT基础架构轻盈而健壮,如何保持可控的成本?我 ...

  9. 鲁山县蜂蜜峰农李延卿“老骥伏枥,师德为人”---陈帅良

    鲁山县蜂蜜峰农李延卿"老骥伏枥,师德为人" "老骥伏枥,志在千里",这是我第一眼看到李延卿先生时的感觉.谈话间,我了解到,李老先生是退休教师.我内心很惊叹,是什 ...

最新文章

  1. 报名 | 面向智慧城市的人本尺度城市形态:理论、方法与实践讲座
  2. MAX487制作RS485总线接口模块
  3. UpdateProgress
  4. python获取ftp所有文件名_在Python中获取最新的FTP文件夹名称
  5. 由自动装箱和拆箱引发我看Integer源码
  6. C 语言读写中文出现乱码
  7. qt label显示文字_Qt官方示例共享内存
  8. Boost:以协程的方式实现聊天服务器的实例
  9. *** line xxxx of `fraud.data': bad value of xxxx for attribute `id_11'
  10. 5、play中的json数据处理
  11. TCP Congestion Control
  12. 李春雷 | 夜宿棚花村
  13. Mybayis的项目使用的Mapping文件使用总结参考(一)
  14. 【开源项目经验】之计算PSNR
  15. python并发编程 协程_Python并发编程协程之Gevent
  16. 矢量绘图软件 android,sai绘图软件官方
  17. 计算机total函数,以一敌十的SUBTOTAL函数,你不会用就太可惜了!
  18. html 属于mvvm框架,vue.js是mvvm框架吗
  19. python读取文件时的相对路径
  20. 密码学写作论文排版操作手册,latex模板cryptocode

热门文章

  1. 20155339 Exp4 恶意代码分析
  2. mysql的日志时间不对
  3. 游戏建模实战教程:《黎明杀机》中的鬼武士,Maya和ZBrush制作全流程
  4. jsp实现局部刷新的一种方法
  5. 一位数码管进行数字和字母的显示
  6. 预防颈椎之痛的几个小技巧
  7. 洗地机专用电瓶“高烧不退”怎么办
  8. 集成灶十大名牌排行榜,集成灶什么牌子的质量比较好?
  9. Word批量删除空白页
  10. 全国沿海港口首个区块链木材业务服务平台上线试运行,“区块链+港口”撬动数千万元“福利”