就在一周前搜狗宣布赴美上市计划的当天,搜狗公司CEO王小川在员工内部信中写了这样一句话:“已经没有人会怀疑搜狗的生存问题了,唯一的悬念是搜狗是否能在搜索领域实现颠覆,是否能在人工智能领域引领重大的创新。”一时间,王小川的“悬念”成为看点——8月8日,搜狗正式迎来了第一款语音技术产品“搜狗听写”。

语音实时转文字背后有深度学习技术

搜狗听写的定位是“文字工作者的速记工具”。针对写文章、采访录音、会议记录、笔记整理 、日常记事等场景,以实现高效记录和信息输入。

搜狗听写最亮眼的功能在于“听写”和“转写”两种模式。“听写”模式下,录音的同时可以实时识别结果;而“转写”模式下则可以离线录音,录音完成后一次性获取文字结果。

除此之外还有诸如支持手机边听边改、无线标重点(蓝牙打点)、多客户端同步、信息分享、摘要、断点续录等人性化功能,另外,针对图书馆、咖啡厅等安静场所,搜狗听写提供耳语识别技术——人说话音量低至30分贝时,依然可以准确识别。

被牛露云称作“大杀器”的一个功能,是搜狗听写与搜狗输入法的个人词库已经打通,可以视为媒体撰稿人之间文字互通的功能。

关于下载,搜狗听写除了支持Android、IOS版本之外,还开发了Windows版,Windows版特别针对会议场景,观众可以直接看到会议演讲者的实时字幕,字幕可能是直接文字的转写结果,也有可能是双语、多语对照结果,观众甚至可以直接扫码获取当天的录音和文本结果。

这样一款语音识别产品,实际上是基于深度学习技术,以提升复杂场景识别效果。

说到深度学习,离不开三要素:有没有大数据,有没有好的深度学习算法,以及能不能让深度学习算法在深度学习平台上高效运转。

搜狗语音交互中心技术总监陈伟介绍,关于大数据,“搜狗输入法每天语音识别的PV是2.6亿次,产生的语料规模是22万小时。”关于算法,搜狗早期较多使用深度神经网络,随后尝试了CN算法、LSTM的算法,现在转为CN+LSTM+DN的端到端的算法,可以更高效,准确率更高。

有了数据+算法,接下来就是运算,如何高效的给出模型以快速部署到线上,关键在于搜狗的深度学习平台。“我们可以在自有的深度学习平台上调动上百块算卡,快速的给出模型。”陈伟说。

实际上,目前市场不乏与搜狗听写同类型的语音识别产品,譬如科大讯飞早期推出的讯飞听见等,相较而言,搜狗听写的差异化在哪?搜狗语音交互中心负责人王砚峰答道,搜狗听写存在优势:

1、讯飞对应的产品,如讯飞听见、讯飞录音宝等,是不能支持长时间录音、并且免费转写的。而搜狗是首次做了长时录音设置,并且支持免费转写。

2、搜狗的产品是面向垂直场景,包括记者采访的场景、作家写作的场景等等。这些功能虽小,但很关键,体现在具体场景下,怎么绞尽脑汁的想尽办法,帮朋友解决问题。

3、搜狗听写支持手机端和Windows,还有语音实时转文字、边听边改、标重点、快速查找、多端同步、不限时长录音等人性化功能。

4、依托搜狗日均超过2.6亿次的语音请求,搜狗拥有海量的真实语料数据,可以使机器不断学习,不断提升识别准确率,可应用的场景也越来越广泛。

对于搜狗转写是否永久免费这个问题,王砚峰坦言,目前肯定是免费的,至于之后会不会收费,并不完全确定。至少按照现有的产品形态,可以肯定的是,在相当长时间内不考虑使用这个产品来赚钱。“作为一家互联网公司,通过技术来收取技术服务费不是搜狗的商业逻辑。至少到现在为止,搜狗还不想通过产品收费的方式来进行商业变现。”

搜狗语音交互中心负责人王砚峰

自然交互+知识计算背后是AI平台

搜狗听写不会是搜狗唯一的一款人工智能产品,在王小川的规划中,人工智能是搜狗下一阶段的重要战略。

早在2012年,搜狗便开始研发智能语音技术,并开始布局相关产品的落地。去年8月3日,搜狗举行知音引擎发布会,取得机器翻译的突破。跟进当时世界上最领先的机器翻译的深度学习框架(基于attion的端到端的框架),加上搜狗之前的语音识别基础,用3个月时间,搭建起知音引擎,成功的应用于去年的乌镇互联网大会,该引擎在今年5月份夺得WMT2017中英机器翻译的全球冠军;去年11月份,搜狗又推出机器同传,率先商用化...

这样的案例很多。比如搜狗去年年底推出的答题机器人“汪仔”,“汪仔”面向搜索引擎,实时的抓取海量信息,根据问题的上下文,通过文本的分析、自然语言处理的能力,把用户想要的答案提取出来。在今年5月份GMIS2017会上,“汪仔”与人工速记进行了五轮PK,最终以4:1完胜。

“到现在为止,我们可以很坚定的说,机器的识别能力与人工速记相比,已经取得了本质性的领先。”王砚峰说。

然而尽管如此,语音识别同样存在挑战。王砚峰说,语音识别产品未来要解决的,一是远场的问题——人与人之间的远距离喊话,大家可以听得很清楚,但机器的远距离识别是不好的;二是噪声声音识别问题。

彼时搜狗的人工智能战略还只是个轮廓:自然交互+知识计算,如今,轮廓变为框架,搜狗已经形成一个AI技术体系及平台。

平台由四个阶层组成,底层是大数据和深度学习技术;倒数第二层是语言的AI、语音的AI、图像的AI——搜狗的核心是语言,图像和语音都是围绕语言的交互方式;再上一层就是应用;最顶层就是搜狗的输入法和搜索两款主打产品。

至于接下来的规划,王砚峰透露,搜狗下半年将在硬件、软件等场景集中一波攻势:

1、在可穿戴、车载、客厅场景下,自主研发更多的硬件。比如搜狗在上个月已经发布了一款产品“智能副驾”,主打的模式就是通过多轮对话、地图知识和对话能力的结合,打造一个全程纯语音交互的导航。

2、搜狗AI云平台、AI云服务将会服务更多的行业伙伴。

3、在更多的垂直场景下做智能垂直产品。

基于搜狗的语音能力和自然交互能力,在非巨头垄断的行业,搜狗还将尝试做更多硬件产品的自研、试水、投资,或自己研发,或投资一些公司,以合作的方式把这些产品做出来。

在王砚峰看来,不论是车载市场、家庭场景,还是可穿戴市场,虽然玩家很多,但市场格局还未定型。因此,王砚峰认为搜狗完全有信心拿出更多爆款产品或有量产品,来抢占市场份额。

原文出处:科技行者
转载请与作者联系,同时请务必标明文章原始出处和原文链接及本声明。

一款“语音实时转文字”工具,引出搜狗人工智能战略相关推荐

  1. PC端视频中语音实时转文字

    PC端视频中语音实时转文字 Win系统语音功能设置 设置哪些软件可以使用麦克风 设置语音输入来源 全局设置 局部软件设置 总结 TOC PC端视频中语音实时转文字 我比较喜欢看视频来学习,特别是那些基 ...

  2. 这3款音频文件转文字工具,操作真的很简单

    随着网络技术的发展,我们的工作方式也在不断变化.例如以前的音频文件需要我们手写转换,而现在可以借助音频工具来转文字.不仅提高工作效率,而且使用更加方便.不过现在的音频转换工具也五花八门,有时让人很难抉 ...

  3. Vue,js前端实现语音实时转换文字,前端实现浏览器语音实时转换为文字,vue阿里云语音转文字

    Vue,js前端实现浏览器语音实时转换文字功能详解 1.首先总结一下,前端使用实时语音需要使用到HZRecorder.js这个JS文件来实现获取浏览器麦克风话筒权限 大注意:HZRecorder.js ...

  4. python调用百度语音实时转为文字_百度语音转文字 (Python)

    感受好久没写中文技术文章了.说实话,学东西都是基于英文,或者 别人从英文翻译成中文 咱们再捡二手货学习.因此用中文写技术文章怎么都感受是在骗人,怎么都以为很别扭.编程 可是这一次的主角是百度.框架 虽 ...

  5. 语音文件转文字软件哪个好?来看看这几款软件吧

    我们公司今年的年终总结会议如期举行,而我负责了这次会议纪要的撰写.在会议上,各部门代表发言的语速比较快,为了避免手速跟不上语速的情况导致出现遗漏,我便打开录音软件进行了记录.会后,看着长达2小时的录音 ...

  6. 文字转wav_这6款超良心语音转文字工具,真让人省心!

    今天的文章,小叶子想帮大家解决「语音转文字」的痛点. 工作学习中,我们总会遇上语音转文字的需求,例如工作会议布置大量任务.期末最后一节课划重点,语速太快来不及记录,只能录音. 但录音一时爽,听时「火葬 ...

  7. 工具 转_好用的语音转文字工具,总有一款适合你!

    昨天在评论区有朋友问有没有好用的语音转文字工具,这当然有了,这种办公必备的需求这么大,怎么会没有相应的软件呢!今天就给大家分别推荐几款我觉得好用的,包括在线版.PC版和手机版的语音转文字工具,一起来看 ...

  8. 文字转语音的软件哪个好用?推荐一款免费好用的工具

    随着科技的发展,文字转语音的软件变得越来越普及.这种工具可以将文字转换成自然流畅的语音,为那些需要听而不是读的人士提供了极大的便利.在这篇文章中,我将向您介绍一款免费好用的文字转语音软件. 记灵在线工 ...

  9. 语音对讲软件_三款语音转文字工具,语音输入,高效转换,准确率高

    关于语音转文字的软件我在之前讲了很多,有些人听了也用了,效果不错,有些人看了就忘了,主要是不知道用它干嘛,其实语音转文字的软件主要功能就是为了让自己在写作的时候可以减少时间,提高效率,其余的作用我暂时 ...

最新文章

  1. memcpy-结构体的复制
  2. Spring Boot - 手把手教小师妹自定义Spring Boot Starter
  3. 关于 php mysql pdo cannot find driver 解决方案
  4. sql数据导入错误代码: 0x80004005_SQL入门第八关 项目实战
  5. linux中对shell变量内容的修改和替换
  6. Vijos P1597 2的幂次方【进制+递归】
  7. 信息时代不被淘汰,获取成功需有的十种能力
  8. 微信小程序图标点击后变色并跳转页面
  9. Windows 10 无法访问共享的解决办法
  10. html入住登记源码,酒店客户入住登记管理系统设计与实现.doc
  11. 十进制和二进制相互转换
  12. 佛说:前世的五百次回眸,才换来今生的一次擦肩而过
  13. 如何拍背景虚化的照片_如何拍摄出突出主体(背景虚化)的照片
  14. 苹果在华一天收入可抵与唯冠6000万美元
  15. (转)Linux Kernel核心中文手册
  16. C语言自定义数据类型(二)使用结构体数组
  17. 【VFI系列2】视频内插帧中基于optical flow的 backward/forward warping
  18. [TED]丹·吉尔伯特:我们为什么快乐?
  19. Office2007 Word 中出现乱码
  20. 日本电视连续剧《阿信》主题歌歌词—永远相信

热门文章

  1. rizomuv缩放排布_Unfold 3D/RizomUV从入门到放弃(一)
  2. 【2022】Rethinking Symbolic Regression Datasets and Benchmarks for Scientific Discovery
  3. 软件测试肖sir___项目讲解分析(01)
  4. 都是服务器多IP惹的祸
  5. Elastic search点点滴滴
  6. androidLog日志
  7. 创新实训 dsy13
  8. 【uniapp】小程序中输入银行卡号每四位留一个空格
  9. PLC功能块系列之气缸功能块FB(SCL语言)
  10. 华为od统一考试B卷【阿里巴巴找黄金宝箱】Java 实现