摘要:百度用了两年,令其语音技术初具成效;腾讯因微信开始整合技术资源;而盛大以高成本结出了两颗果子,一颗是“灵声科技”,一颗是“云知声”。盯着语音这块大蛋糕的,到底有多少家公司,水平如何,我们来做一番梳理。

近年来智能语音市场的火热,引起了越来越多的人的关注。最明显的标志,就是科大讯飞的市值。作为语音行业的龙头企业,短短几年时间,科大讯飞的市值从刚上市时的34亿,已经增长到超过200亿,让人瞠目结舌。而这几年移动互联网的大规模爆发,作为主要载体的智能手机在打字输入方面非常不方便,这更让语音识别技术变成了必需品。这大大拓展了智能语音市场的想象空间,让人们不得不盯紧这块巨大的蛋糕。那么,这块巨大的蛋糕里,有多少家公司,每家公司的水平如何,让我们来做一番梳理。

作者简介:角宿,语音技术领域资深从业者。

技术门槛

首先要知道,智能语音行业是个技术密集型的行业,核心技术一直是智能语音行业的一个重要门槛,也是一家语音公司的核心资源。智能语音行业的技术很多,除了最著名的语音识别、语音合成外,还有说话人识别、音乐识别、语种识别等。如同“数学是科学的皇冠”一样,语音行业技术也有一个“皇冠”,那就是“语音识别”。为什么语音识别是“皇冠”?两点理由:一是技术上最难,二是实用前景最大。所以要考察一家语音公司的技术水平如何,就看它是否能提供高性能的语音识别产品。科大讯飞一直说自己的行业门槛高,主要就是指语音识别技术的门槛高。

前几年语音行业不景气,做语音的多是以学术界为主,这使得国内的语音核心技术一直掌握在科大讯飞、中科院声学所、中科院自动化所、清华大学等几家单位里。同时也导致语音行业的人才很稀缺。互联网大佬们有钱都招不到人。

除了国内的几家单位,还有一些著名外企在国内设了语音研究机构,水平也很高。比如鼎鼎大名的微软亚洲研究院,给SIRI提供语音技术的Nuance,还有IBM、摩托罗拉。不过这几家外企的语音部门并没有随着国内语音产业的爆发而发展。微软亚洲研究院的语音组一直在缩水;Nuance在中国的部门一直不是核心部门;IBM的相关部门卖给了Nuance;摩托罗拉更别提了,是其中最惨的一个,语音部门解散,语音合成的部分卖给了Nuance。除了语音产业在前些年一直做不大的原因以外,笔者猜测的一个原因是,语音识别牵涉到信息搜集,有国家安全的考虑,所以国家不会把这部分业务放给外企来做,外企也就不再在国内加大投入。比如Google的语音识别服务,国内的连接一直就时断时续。

算起来,现在语音行业的核心带头人,或多或少都和上述几家公司和单位有着联系,要么从这几家单位获得学位毕业,要么加入过这几家公司。

盛大往事

谈到国内语音产业的发展,不能不提的就是盛大语音院。因为它确实是从无到有,花了三年时间,突破了语音产业的技术“护城河”。它所花费的人力成本、时间成本,无疑给各个互联网大佬们做了个样板。大佬们可以从盛大语音创新院的花费中,推算出如果自己想从头开始投资语音技术,需要花多少人、多少时间、多少资金,才可以在语音市场上有一席之地。这几个重要指标下面都会细致的谈一谈。

盛大2009年开始成立的语音院,是金融危机爆发的后一年,也刚好是国内语音产业爆发的前一年。上文说过,语音行业的人才紧缺。也就是这个时候,才能从各大语音公司和部门,挖过来那么多核心员工。据了解,盛大组建的语音团队,从事语音技术研发的核心员工,最多的时候有三十多人。这对于语音研发团队来说,是个相当恐怖的数字。因为通常一家公司的核心语音成员都在十人以下。而国内做语音的也就那几家公司。盛大基本上挖了个遍。所知道的,科大讯飞、中科院声学所、Nuance、摩托罗拉、微软亚洲研究院都有核心员工被挖到盛大。这些员工带着原来公司的核心技术来到盛大,自然也要尽快拿出成果。带着这几家大公司的核心技术,在三四十员工的研发下,盛大还是花了两三年时间,才拿出了像样的语音产品。不得不说,语音行业的技术门槛确实很高。盛大也是机缘巧合,才能突破语音技术“护城河”。

所以,从盛大的经验来看,要从头开始做语音技术,人数上要有三十多人。而且这一过程至少需要两年的时间,如果考虑到团队组建,可能会更长。资金方面,据悉,盛大对语音院的投入达到了四千多万,人力成本的开销的比重较大。由于这两年各大公司都开始成立语音部门,需求的增长也让语音人才的薪资水涨船高。所以,四千万的资金投入还不一定能满足这样的成本开销。

不过,盛大在语音行业走了步好棋,甚至市场上有声音称其有望挑战科大讯飞。但不幸的是,整个盛大集团近期一直处于衰退阶段。因为退市而资金不足的盛大,只能大幅度减少投资力度。盛大语音院的上级机构——盛大创新院几乎全部解散,让人唏嘘不已。在这场动荡中,一部分员工离开了盛大语音院,成立了一家叫“云知声”的公司。云知声大约有90%的员工曾就职于盛大。短短几个月内,这家公司就推出了自己的语音识别技术。不过据称,它与盛大仍存在一些历史遗留问题。

盛大在语音方面的投入也不是完全没有结果。2013年,盛大语音院从盛大正式独立,成立了一家叫“灵声科技”的公司。据灵声科技方面称,盛大没有得到灵声科技的控股权,以盛大以往在资本运作上的强势风格来看,不知中间又发生了什么故事。

盛大栽下了“语音院”这棵树,结了两颗果子,一颗是“灵声科技”,一颗是“云知声”。从此,盛大语音院的故事告一段落,两个新的公司带着盛大的核心技术,开始了各自的征程。

互联网大佬的现状

既然盛大投资了语音产业,其他几家互联网巨头也想从该领域分一杯羹。腾讯、百度、阿里、搜狗陆续成立了语音部门。

对百度和搜狗这类搜索公司,语音识别技术是必须的,而且其商业价值也很清晰,因为Google已经验证了语音搜索在移动终端的重要性,国内搜索公司只需要跟进投入即可。因此,百度方面由李彦宏亲自督管该项目。腾讯方面,其语音部门隶属于微信事业部,微信大批量的语音输入,使得语音识别的用处很广泛。阿里则是刚开始介入语音产业,部门也才成立不久。

这几家公司里,百度的语音技术已经做的不错。2010年就成立了语音部门的百度,开始都是游兵散勇。百度还从中科院声学所买了一些授权,但是没有专业的语音开发人员,没做出什么成果。正如之前所说,语音技术门槛高,从头开始做很难,没有其他公司的技术积累基本无望。百度后来从中科院自动化所挖来一批人才,通过自动化所的技术累积,花了两年多的时间,才慢慢地把语音技术做了起来。腾讯其实也差不多从2010年左右开始投入语音技术,但是力度一直比较分散。据说当时腾讯研究院、输入法等两三个地方都在做语音,每个团队都是一两个人,所以一直没见成果。近期由于微信大红,其中有大量的语音输入,因此才将语音研发人员整合起来,步入正轨,不过要达到其它家的水平,尚需时日。其他几家公司中,搜狗对语音技术已投入了一年多,目前为止还是相当一般,否则搜狗语音助手也不会还依赖于第三方的语音引擎了。阿里的部门今年才成立,更不用说技术了。

国内那些专业语音公司

除了上文提到的语音公司的龙头企业——科大讯飞,出身于盛大的云知声和灵声科技外,其实在近些年里,国内成立的其他语音公司也有若干家。捷通华声就是一个出身于科研院所的典型。这家语音公司一开始技术上是依托于中科院的声学所,成立时间基本和讯飞相当。在之前相当长一段时间内,也是和讯飞旗鼓相当。但是最终的结果是讯飞发展起来并成功上市,而它则相对惨淡。近年来捷通华声语音技术上并没有太大的起色,而市场应用也还是那一亩三分地,比如一些科研项目。与之类似的,另外一家依托于声学所的语音公司——中科信利,其发展状况也差不多。

除了声学所以外,中科院的自动化所也是国内语音技术的一股中坚力量,从中也分出了几家语音类的公司,其中包括紫冬锐意和纳象立方。紫东锐意以语音和翻译为核心技术,主要提供口语翻译软件。纳象立方则主要对视频进行字幕处理。

除此之外,近期也出现了一些海外背景的语音公司,针对于大语音产业的细分领域。一个是苏州思必驰,据称该公司的创始团队成员有剑桥大学的背景,主要是将语音技术应用于英语教育。还有一个是普强信息,该公司的创始团队来自硅谷,其主要业务是为呼叫中心提供智能语音技术。

跨越技术“护城河”的标志

此前说了这么多技术门槛,大家可能会有疑问,如何判断一家公司的语音技术已经越过了“护城河”。不能是你说行就行,你说不行就不行,要有一个客观标准。这个客观标准是什么?业界的讨论是,是否推出了语音识别公开平台。为什么这么说?如之前所述,语音识别技术是语音产业的“皇冠”。那么判断一个公司的核心技术水平,就看它的语音识别技术做的怎样。而通过语音识别公开平台,就可以判断一家公司的语音识别技术水平。从这点上看,科大讯飞是最早公开发布的,也肯定了科大讯飞的技术水平。盛大语音院是第二家发布的,现变更为灵声科技继续开发。搜狗公司曾使用过盛大的语音识别平台,也算确认其技术水平。云知声推出稍晚,但是近期宣传非常高调。其它语音公司包括捷通华声、紫冬语音甚至普强信息也各自都发布自己的语音技术平台,但是在市场上并没有看到太多应用的声音。百度虽然没有对外发布,但是在百度内部,已经推出了一个语音识别平台。这几家可以算得上圈子内正式的玩家。

发展前景

我们把国内现有的语音公司和部门分为两类。一类是独立的语音公司,以讯飞、云知声、灵声科技为代表;一类是互联网巨头公司的语音部门,以百度、腾讯、搜狗为代表。

独立的语音公司策略比较灵活,可以多方面发展,但平台的可能性不够大。但讯飞比较例外,即作为独立的语音公司,同时去年又和中国移动达成战略合作,解决了发展平台的问题。这也是它被投资者看好的原因。出身于盛大的灵声科技、云知声,虽然语音技术上已经可以和讯飞相媲美,但发展平台与讯飞差距很大,商务上也不及讯飞这么多年的积累,需要傍大树,才能获得迅速的发展。但技术门槛已经被突破,所以讯飞也在这几家新公司而头疼。

互联网巨头公司的语音部门有个大的发展平台,但是基本上只服务于公司的整体战略,很难在多方面发展。比如百度的语音部门,就服务于百度的语音搜索业务和语音助手业务。腾讯的语音部门,就服务于微信业务。这些部门今后的命运,可能类似于微软公司的语音部门、谷歌公司的语音部门,专门为本公司的核心战略服务。

随着去年SIRI的推出,语音号称作为移动互联网的入口,想象空间高到爆棚,让所有人都心动了一把。但经过这段时间的发展来看,还为时过早。整个语音产业的后续发展趋势,还值得继续观察。

语音技术现状:四千万突破语音产业的技术壁垒?相关推荐

  1. 苹果自带跳语音服务器,iOS自带文本转语音技术(TTS)的实现即语音播报的实践

    文本转语音技术, 也叫tts, 是text to speech的缩写. ios如果想做有声书等功能的时候, 会用到这门技术. 一,使用ios自带tts需要注意的几点: 1.ios7之后才有该功能 2. ...

  2. 全球首推语音定制产品,百度地图背后的语音技术到底有多强大?

    文|李永华 来源|智能相对论(aixdlun) 地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回. 但现在,一些基于AI技术的颠覆性创意功能正在冒出,它们将成为竞争"杀招&qu ...

  3. 汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术

    文 |余凯文 来源 | 智能相对论(ID:aixdlun) 在人机交互不再满足于"听"时,"说"的环节变得尤为重要,"怎么说"." ...

  4. 中国人工智能学会通讯——智能语音技术与产业应用展望 1.2 智能语音产业应用的现状和挑战...

    1.2 智能语音产业应用的现状和挑战 智能语音产业应用,基本上都是从语音控制.语音识别和语音交互作为切入点建立起来的,根据不同的定位和形态,目前主要分为以下4类. (1)APP类纯软语音应用.如App ...

  5. 【CIPS 2016】(16章)语音技术 (研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息处 ...

  6. 【语音之家】AI产业沙龙—语音技术在贝壳的应用

    由CCF语音对话与听觉专委会 .中国人工智能产业发展联盟(AIIA)评估组 .贝壳找房语音团队.语音之家.北京希尔贝壳科技有限公司共同主办的[语音之家]AI产业沙龙-语音技术在贝壳的应用,将于2022 ...

  7. 2022 SpeechHome 语音技术研讨会-回顾

    2022年11月13日,第二届SpeechHome语音技术研讨会和第七届Kaldi技术交流会圆满落幕.本届SpeechHome语音技术研讨会由中国计算机学会.深圳市人工智能学会.小米集团.腾讯天籁实验 ...

  8. 语音技术正在改变计算行业

    英国科幻小说家 Arthur C. Clarke 曾经说过,任何足够高级的技术都近乎魔术.迅速崛起的语音计算技术证明了他的观点.使用该技术如同下咒语一样:只需要对着空气说几句话,附近的设备就可以满足愿 ...

  9. 许路平:Gvoice千万在语音输入的那些事

    点击上方"LiveVideoStack"关注我们 GVoice为腾讯旗下的主流游戏提供低延迟语音通话服务,其特点是高并发.覆盖全球.本次分享的嘉宾许路平是GVoice后台负责人,他 ...

最新文章

  1. MyClass a,b[2],*p[2]调用了几次构造函数
  2. IBM技术大会2005
  3. Git之 手把手教你使用Git
  4. 第十届 蓝桥杯大赛 青少年创意编程 C++组
  5. 【读书笔记】周志华《机器学习》第三版课后习题讨第一章-绪论
  6. mediarecoder 安卓_android 通过MediaRecorder实现简单的录音示例
  7. angularjs绑定属性_AngularJS隔离范围绑定表达式教程
  8. 媒体查询以及flexbox,响应式图片
  9. 百度API从经纬度坐标到地址的转换服务
  10. MATLAB 图片压缩一简易方法
  11. 深度学习硬件购买指南
  12. 2021数学建模国赛A题思路
  13. 前后端分离实现在线音乐网站-springboot+vue
  14. 滴滴历经7年打磨,终于开源的Kafka云管控平台!Github Star 1.8k+!!
  15. jme示例代码中的素材在哪
  16. 谈谈我在企业内部的创业经历
  17. mint-ui —— checklist的使用
  18. lnmp架构的工作原理
  19. networkx pagerank
  20. flask 下载excel

热门文章

  1. PAT : 团体程序设计天梯赛-练习集L1 个人题解
  2. html伪类选择器结构,子元素伪类选择器 - CSS3 | 绿叶学习网
  3. Failed to save. Insufficient permissions. When trying to save changes in VS Code
  4. 算法之路,带你轻松学废算法系列之字符串匹配(中)
  5. java mvc设计模式_JavaEE知识点:MVC设计模式
  6. 关于COM及套间(Apartment)知识
  7. malefemale分类+人脸识别——《模式识别》实验课作业
  8. 双目测距--3 双目标定
  9. Python小游戏——扫雷
  10. 第七班的火影忍者高清壁纸