我们时常听到对张小龙关于微信设计的研究,但很少注意到微信背后的技术团队。在早期版本中,由于主打信息沟通功能,微信技术上并无亮点,直到 4.3 版本之后,语音识别、扫一扫功能陆续的加入,新技术加上传感器的结合正在重新定义微信。
    在昨天的“微信•公众”合作伙伴大会上,微信发布了语音开放平台,正式跳出微信范畴,与科大讯飞、云知声等语音公司进行竞争。同时在本次大会上,微信通过展示控制冰箱、印美图、电视等设备,凸显其在物联网中发挥枢纽作用的潜力。
    微信的这些技术团队都归在模式识别中心团队里,在笔者之前的独家采访中,详细的剖析了这个团队的工作领域、在微信迭代中扮演的角色。那次采访我们还了解到了不少关于技术方面的信息,趁着这次“微信•公众”合作伙伴大会召开之际发出来。
    模式识别中心在应用层上有 2 大块,分别是语音和扫一扫,在微信团队看来,它们是人身体的延伸,有着很高的战略意义,所以必须有自主核心技术。
    语音是站在了更高的起点上
    微信语音识别给人突然冒出来的感觉,它的带队人是卢鲤,中科院博士毕业,研究方向是语音识别这块。2011 年苹果发布 Siri 后,语音一下子被大家重视起来,这其中也包括腾讯。腾讯在 2011 年底将语音识别作为科研项目在北京研究院启动,卢鲤进入腾讯带队,带领 3 个人进行攻坚。
    其实从技术上讲,老牌的科大讯飞虽然积累了十年,但是由于相关的行业论文在技术研究上已经大大进步,知识储备更齐全,所以卢鲤算是站在一个更高的起点上,可以做到速度比科大讯飞快得多。
    另外,按照云知声创始人梁家恩的说法,语音识别是“会者不难”,懂的人做起来要容易得多。卢鲤和梁家恩也互相认识,都是中科院出身,百度、搜狗的语音负责人也都是来自同门。
    当然,做技术攻坚,其中的辛苦也是不为人知。语音识别技术从简单,到可以用,再到好用,中间是一个漫长的过程。卢鲤把每半年算一个节点,从研发开始到微信 5.0 发布,总共 3 个节点,每一个节点性能都有 40% 的提升,但是直到最后那个半年,语音识别才有真正的质变。
   “这就相当于一个人吃了 9 张饼没吃饱,吃了最后一张饱了。”卢鲤说道。
    这期间,他们经历过两次封闭开发,也有过张小龙的“循循善诱”。据悉,产品上线后,用户数量上升曲线都很健康,使用率很高。
    在微信 5.0 的语音转文字功能中,很多人发现它的表现不输科大讯飞。腾讯在语音识别这块虽然起步不早(不到 2 年),但是在实际应用上已经走在了前列。
    以自然的方式融入产品
    Siri 虽然发布很成功,引爆了这个市场,但是最终却沦为用户调侃的对象,属于半成品。而语音该如何在微信中呈现,避免言过于实的现象,不仅考验着技术,还考验着产品能力。
    卢鲤认为,语音是不是入口不重要,也不在乎,在乎的是语音识别能做什么事,就像从一个地方到另一个地方,最重要的是能到达,而不是中间发生了什么。
    语音在微信中的呈现形式有三种:语音搜索通讯录、语音闹钟、语音转文字。从微信 4.3 到微信 5.0,语音的介入在一步一步深入,但同时也是受到严格限制,仅限于指定的功能,他们认为一旦放开使用范围,很容易面临华而不实的境地。
    Siri 包含了语音识别、语义识别、搜索等,形成一个闭环,大多数语音 App 也是如此,但问题是,Siri 等产品暗示着用户可以做好任何事情,在技术还没准备好的情况下,产品很容易变为鸡肋。微信的考虑是反其道行之,让用户明白只能做这些事情,不要制造额外的期待。而且语音与通讯工具的结合,天然更加默契,卢鲤觉得:“通讯录语音搜索,这在微信里是多么的自然。”
    随着微信•公众合作伙伴大会的召开,微信的语音终于平台化,并加强垂直领域的体验,这都为微信商业化缔造了机会。他们接下来的研发目标仍然是提升精准度,完善技术细节,与人脑进行“PK”。
    扫一扫的新技术有很多

    微信扫一扫负责人刘海龙

按照扫一扫负责人刘海龙所说,扫一扫功能可以识别图像、文字、人脸、物体检索,甚至是增强现实,目前微信只推出了文字、图像识别,这是很多因素综合的结果。值得注意的是,微信扫一扫是采用视频的方式,数据在实时进行着传输,不借助本地的资源,扫一扫功能虽然是来源于之前推出的 App 搜搜慧眼,但后者仍然是拍完照再上传识别。

    实时自动的检测,让用户操作少了一步,就像摇一摇搜歌,结果会实时显示歌曲播放的位置。从上传后识别到实时识别,这并不是简单的技术迁移,这考验着对流量、处理速度的要求,以及云数据库搭建。这样做的好处不仅提升用户体验,而且使得前端轻,重活交给后端,以尽量让微信保持轻量化。
    在扫一扫这块,微信可以说储备了一大批新潮的技术,包括名片识别、人脸识别、实景识别、物品检索、增强现实等。现有的街景扫描中,微信是根据你的地理位置而不是图像匹配,但刘海龙说,实景扫描这个是可以做的,但问题是这一功能需要大量流量和高速传输的网络,目前还不适合上线。4G 的上马将是很多新应用的机会,目前很多的工作还在与流量较劲。
    扫一扫为何要放 5 个功能,为何二维码、条形码没有归一类?这背后同样是微信对产品设计的思考。刘海龙认为,5 个按钮清晰的告诉用户可以做什么,同时也提醒用户,只能做这些事情。扫一扫功能的理想状态应该是用户需要时出现,不需要时不出现。
    以后,如果流量问题解决了,扫一张电影海报不再是指向影评网站,而是人从画面中走出来,自动播放预告片等。另外,物品检索、商品扫描等,这些事以前 PC 都做不了。
    扫描的未来是让摄像头成为人类视觉的延伸,连接现实与虚拟世界,由于占据了极其重要的地位,微信的扫一扫很快会变得更加强大。
    可以肯定的是,很多功能内部已经在逐个测试,视成熟度、用户需求是否上线。据说微信一次版本更新前会制作几十个版本,从中挑一个最好的版本上线。甚至,他们还会制作一个搭载新功能的微信推送给 100 万测试用户,研究使用率,语音转文字功能正是这样测试通过的。
    微信快节奏的版本迭代并没有让他们工作状态太过辛苦,做前沿研究,和算法有很大关系,死憋是做不出来的,需要闲暇状态下的灵光一现,一旦想通了,做起来就快了。但由于有了微信,他们几乎是 24 小时在线,随时沟通工作。
    在采访中,他们多次提到得益于微信平台,他们的技术才能有如此大的应用空间。微信紧贴用户,通过对摄像头、麦克风以及其他传感器上进行应用挖掘,已经大大改变微信的内涵,微信不再是通讯工具,而是个人和企业的服务助手。

本文转载自中国硅谷在线-慧谷城信息港

微信技术应用2大核心:语音和扫一扫相关推荐

  1. 微信技术总监讲大数据高并发系统架构

    微信--腾讯战略级产品,创造移动互联网增速记录,10个月5000万手机用户,433天之内完成用户数从零到一亿的增长过程,千万级用户同时在线,摇一摇每天次数过亿--在技术架构上,微信是如何做到的?日前, ...

  2. Spring4.x❶ 两大核心之IOC

    1 Spring? 2 IOC案例 2.1 配置文件方法 2.2 注解方法 2.3 配置文件与注解一起使用 3 代码案例可参考: 更多Spring开发在框架开发 1 Spring? Spring是开源 ...

  3. 大数据是什么和大数据技术十大核心原理详解

     一.数据核心原理   从"流程"核心转变为"数据"核心   大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据&quo ...

  4. 微信PC端技术研究(2)-保存聊天语音

    微信PC端技术研究-保存聊天语音 转载地址: [原创]微信PC端技术研究(2)-保存聊天语音-软件逆向-看雪论坛-安全社区|安全招聘|bbs.pediy.com 0x0. 前言 最近又学习了某位大佬用 ...

  5. 大数据技术十大核心原理详解

    一.数据核心原理--从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心 ...

  6. 大数据技术十大核心原理

    一.数据核心原理--从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心 ...

  7. 大数据技术十大核心原理 1

    文章目录 1.数据核心原理:从"流程"核心转变为"数据"核心 2.数据价值原理:有功能是价值转变为数据是价值 3.全样本原理:从抽样转变为需要全部数据样本 4. ...

  8. 迅雷创始人程浩:AI 创业必知 6 大核心问题:如何选择赛道、搭配团队和应对巨头挑战

    [新智元导读] 迅雷创始人程浩现在是专注科技领域的投资人,他在这篇文章中,聊到了人工智能领域的创业和创新,包括如何选择赛道.团队的搭配.以及如何应对巨头的挑战.他总结了人工智能创业的 6 大核心问题, ...

  9. 微信技术分享:微信的海量IM聊天消息序列号生成实践(算法原理篇)

    1.点评 对于IM系统来说,如何做到IM聊天消息离线差异拉取(差异拉取是为了节省流量).消息多端同步.消息顺序保证等,是典型的IM技术难点. 就像即时通讯网整理的以下IM开发干货系列一样: <I ...

最新文章

  1. founder of girton college
  2. 【bfs】神殿(jzoj 2296)
  3. python prettytable表格列数太多_excel列数太多了怎么办
  4. java矩形翻转_如何判断一个点在旋转后的矩形中
  5. 群晖编译LCD4Linux,LCD4LINUX配置文件一些参数使用解释。
  6. Android 系统(184)---Android APN 配置
  7. 趣学 C 语言(十二)—— 文件操作
  8. Lagrangian乘子法 对偶问题 KKT条件 Slater条件 与凸优化
  9. Android开发使用一行代码实现点击切换下一张图片
  10. 智能硬件无线通信协议的那些事儿(一)
  11. Python 网络爬虫与数据采集(一)
  12. Electron 屏幕锁定 快捷键锁定 屏蔽快捷键
  13. 转录组RNA-seq分析前沿进展综述
  14. 如何帮银行保持长期竞争力?融360天机公布独家秘诀
  15. JS基礎:Hoisting 變量提升、TDZ 暫時性死區(Temporal Dead Zone)
  16. Towards Two-Dimensional Sequence to Sequence Model和Two-Way Neural Machine Translation两篇论文简单分析
  17. 条码扫描器的安装方法与使用注意事项
  18. 这位.NET开发者曾说:“GitHub 存在的意义,是帮助开发人员”,但还是要离职了...
  19. 第一课:jquery入门
  20. 3.1 该如何编写程序界面

热门文章

  1. Office学习记录:PPT快捷键
  2. 【数据可视化】基础知识贴①:激情四溢热力图
  3. Sonatype Nexus Repository Manager OSS仓库管理私服(一)——搭建私服
  4. 32g内存 java开发,阿里面试官:小伙子,你给我说一下JVM对象创建与内存分配机制吧...
  5. XMUT第七届蓝桥杯全国软件和信息技术专业人才大赛校内选拔赛模拟赛
  6. 小谈 MySQL 第十一话·InnoDB 碎片整理
  7. 大数据应用于各个行业,大数据在各行各业的具体应用是什么?
  8. Proe5.0 如何修补破面?
  9. 湖南省计算机等级考试(二级)题库 第二部分
  10. 广州实时公交查询系统调研