在上一章节《Google 的伟大征程之一:如何攀登移动互联网这座高山》中,我们看到了 Google 曾经的辉煌,如今隐隐显现的危机,以及自身不断做出的努力。在这一章节,我们将详细介绍它其中的一款具有战略性意义的产品:知识图谱。


  三叉戟

  Google 在大的方向推出了三个实质性的科技突破,正是这三者,将继续确保 Google 的霸主地位。其一就是 Google 所开发的「知识图谱」(Knowlege Graph),这是 Google 从世界范围内将数据进行全面整合之后的产品。一旦有了它,你就会更加深切、直观、全面地了解这个世界。其二则是 Google 的语音控制功能。辛格尔面向我,抬起他手腕上的三星智能手表给我说道:「为什么要开发这个功能?因为我无法在这款手表上打字。就是这么简单。后来我们觉得在预测人们想要问什么的背后是应该由一些成系统的学问的,所以我们又开发出来了 Google Now,这样人们不用老是问来问去了。」而 Google Now,就是第三款产品了。

  知识图谱在一个超级大的数据库中重新整合世界的信息。语音搜索功能彻底将「说话」纳入到了搜索领域。而 Google Now 能够让人们在还没来得及提问的时候就已经给了人们想要的答案。这三者的出现绝对不是巧合,完完全全与 Google 瞄准移动互联网的发力有关。尽管整个公司研发战略上并不仅仅就包括这三者,但是我们已经看到了曾经的巨人,那个曾经只能给出「十行蓝色链接」的搜索引擎,单凭这三点内容就开始蜕变成另外的主宰者。它的功能表现不能再用计算机来形容,而更像是一个由信息组成的「智能蜂巢」,一个能够解读并且满足你的信息需求的强大工具。当你还没有注意到它的时候,它就已经布局完成。

  知识视图的起源

  在 2010 年,Google 收购 MetaWeb 公司的时候,大家都没怎么注意。但是如今看来,当年的那次收购确确实实影响了如今搜索领域中很多重大的改进,在曾经简单的「十行蓝色链接」之上附加了丰富的类似于卷宗档案一样的内容,涉及人物、地点、物品等等,一应俱全。

  MetaWeb 是当时著名的计算机科学家及创业者丹尼·希尔斯(Danny Hillis)在 2005 年创建起来的。他曾经的公司叫做 Applied Minds,在这个公司丹尼·希尔斯曾经开发了很多创新项目,然而其中有一个项目尤为让他觉得意义重大,以至于准备开设另外的一家公司独立运作这个项目,这也就是 MetaWeb 公司的起源。它于 2007 年创建。该公司在当时被称之为「语意网络」中进行首次重大探索

  说这么学院派大家也许还是一头雾水,简单点儿来说,就是用某种方式将多个数据库进行加工,将其整合到一种格式中。在这个格式下的信息会非常容易解读,就像是所有的东西都被收集打扫到一个巨大的贮藏室里一样。希尔斯表示:「我们正在创建世界的数据库,一个能够容纳世界全部信息的地方。」鉴于那个时候 AppliedMinds 已经开始扫描互联网来提供问题的解答服务,不少人认为 Metaweb 都是 Google 最强有力的竞争者。但是过了几年,该公司融资了 5000 万美金之后,希尔斯意识到他头脑中那个绝妙的、宏伟的想法只可能成为一个更加强大的公司中的一部分,它只能在那个公司的羽翼下才能破茧成蝶。那个公司,名叫 Google。

  那个时候,其实 Google 也在为问题提供一些直接了当的答案。比如,如果你打美国总统巴拉克·奥巴马的生日,它很快就能响应,在搜索结果的最上方显示正确的日期:「1961 年 8 月 14 日」。但是,当 Google 在 2010 年的 7 月份,在其博客上宣布对 Metaweb 的收购时(其中也包括收购 Metaweb 的那包括了 1200 万条容纳人物、地点、事物信息的数据库),它的搜索引擎还没有回答复杂问题的功能。你如果打出类似的问题:「西海岸那些学费低于 3 万美金的学院有哪些?」又或者「至少获得一届奥斯卡奖,现在已经年过 40 岁的演员都是谁」,Google 是没有办法给出答案的。同时,Google 在博客上向外界宣布,对 Metaweb 的收购会有助于提升这个功能,届时 Google 将会针对这种极其复杂的问题给出非常准确的答案。

  Google 曾经的产品经理艾米丽·莫克斯利(Emily Moxley)接受采访时表示:「当 Google 收购了 Metaweb 的时候,Google 是非常明白收集所有信息对于搜索是多么重要的一件事。在人们所关心的问题上,它能够给出最快的摘要和最准确的信息,这是最明智的选择,当时我们都是这么认为的。」

  开始不断成熟的知识图谱及其背后的意义

  在 2012 年 5 月,Google 推出了从 Metaweb 中衍生而来的东西,它的名字就叫做 Knowledge Graph(知识图谱),它从 1200 万个条目已经暴涨到了 5 亿个条目。这个产品会给你搜索的内容提供另外一种附加的衍生出来的结果。当你搜索某些关键词后,如往常一样下面出来了很多排列好的链接,但是在最右边,它会针对你所提供的关键词给出一组信息,这些信息与你所查询的词高度相关,往往对你来说更加有用。

  那么到底哪些搜索字词能够触发这个知识图谱呢?哪些搜索字词值得触发呢?莫克斯利是这么解释 Google 的做法的,她拿在维吉尼亚州,位于 Rickmond 的洲际高速公路来做比方。如果是从东北方向而来,要去向弗罗里达州的游客们应该都知道,就在 Richmond 的北边,路线 95 的岔口那儿会有一个标示,告诉司机们你可以选择走南北方向的主干道,直接穿过市中心,又或者选择上 295 号线,这条线围绕城市一圈,然后再与 Richmond 南边的 95 号线汇聚起来。

  具体到搜索领域,当你开始查询一个字词,Google 会将其扩展为具有高度相关性的一组字词还有同义词,然后对这些衍生出来的词语进行一次算法测试,看是否符合知识图谱上的结果。这就相当于提前在 295 号线上转了一圈,在选择 295 号线还是 95 号线的时候,系统已经给出了最具价值的路径,如果绕着 295 号线能看到更多有趣的风景,那么系统自然会给你呈现出知识图谱的相关内容了。

  自 Google Search 将知识图谱完全整合进来之后的两年多的时间里,公司一直持续地改善这款产品。当然,Google 官方并不会说搜索字词到底有多少的比例会触发知识图谱的内容,但是大致上我们可以估计得出来应该起码有 25%。一开始,知识图谱只是一些简单的数据,但是这个产品开始不断的自我进化,复制了 Google Search 中自我学习功能,开始分析用户的上网习惯。

  举个例子吧。如果你询问:「谁在《星球炮弹》这部电影中扮演了 Barf 这个角色?」因为系统已经在你发问之前看到无数人都提出类似的问题,它就会自动给出一个图表,里面有演员的姓名 John Candy,电影名称还有演员的照片。你也可以自己去试试这个把戏,打出「某部电影里的某个角色是谁扮演的?」看看系统是多么快地给出答案。

  知识图谱同样还在另外一个重要领域带来进步。那就是信息的及时性。鉴于 Google 往往是对一个问题仅仅提供一个正确的答案,那么这唯一的一个答案一定要保证是最新出现的,否则它就不可能称之为最正确的答案。由于信息的不及时所导致的后果,还不如用户压根不去搜索。莫克斯利表示:当知识图谱在 2012 年第一次出现之前,大众汽车如果决定聘请一名新的 CEO,系统估计需要两个星期的时间才能把这个消息反馈在互联网上;而如今知识图谱的出现,整个系统在处理接收这些新闻,做出及时调整上只需要几分钟就能做到。但是知识图谱并非能够满足所有人的需要。信息传递时也会出现误差。比如大众公司已经决定聘请某某成为新 CEO,可是这哥们儿在后面的几个月一直没有到位入职,所以知识图谱所显示的仍然是现任 CEO 的信息,这对于很多想要查找新 CEO 信息的人们来说就极为不方便。

  除此之外,知识图谱还在不断增加新的知识领域。最近它将汽车领域、视频游戏领域、雨果奖获奖人员信息全部纳入其中。Google 不仅仅满足于向人们提供简单的事实,它已经不再仅仅是追求更快的搜索相应速度,给出一些高度相关的信息,它要给出更加复杂,高度集合化的搜索结果。莫克斯利表示:「人们往往关心的不仅仅是事实本身。他们更关心一些主观的意见看法。比如这个电视剧是不是好看。这些意见会让知识图谱更上一层楼的。」这样做,似乎 Google 是不想让你觉得它只是一个随手一番的字典或者查询极其,它更想扮演一个天上地下无所不知的先知,不仅仅是了解天文地理这些客观的知识,不仅如此,这个先知还精通人世间所有的文化。

  知识图谱目前也是存在短板和缺憾的

  但是知识图谱还有相当长的路要去走。大家从知识图谱上所获得的满足催发出了更高的期待值,然而这些期待不断落空,转化成失望和沮丧。莫克斯利就曾经非常气恼,因为她发现知识图谱虽然知道某个电视剧,但是它却不知道这部电视剧最新季的信息以及它们什么时候会播出。她说:「我其实就是想要它给我一个提醒,告诉我本周我所喜欢的电视剧的新集开播啦!我同样也想知道在哪个网站能看到它。但是目前知识图谱还做不到。」不过她表示最终 Google 能彻底解决这些问题。

  说到令人失望的部分,估计还有曾经提到过的 Google 信誓旦旦所做的保票。它曾说:以后你只要提出诸如:「西海岸那些学费低于 3 万美金的学院有哪些?」又或者「至少获得一届奥斯卡奖,现在已经年过 40 岁的演员都是谁」这样的问题,Google 能给你一个圆满的答复。但是直到四年之后的今天,Google 仍然没有办法做到这一点。

Google的伟大征程之二:知识图谱相关推荐

  1. 美团餐饮娱乐知识图谱——美团大脑揭秘

    前言 " I'm sorry. I can't do that, Dave." 这是经典科幻电影<2001: A Space Odyssey>里HAL 9000机器人说 ...

  2. 美团餐饮娱乐知识图谱——美团大脑揭秘 1

    前言 " I'm sorry. I can't do that, Dave." 这是经典科幻电影<2001: A Space Odyssey>里HAL 9000机器人说 ...

  3. 知识图谱基础知识(一): 概念和构建

    推荐: 知识图谱构建技术一览 知识图谱基础知识之三--知识图谱的构建过程 目录 一.什么是知识图谱 二.知识图谱的分层架构 三.知识图谱构架技术 (一)数据获取(Data Acquisition) ( ...

  4. 知识图谱在互联网金融中的应用

    http://www.infoq.com/cn/articles/Application-of-Knowledge-Graph 知识图谱 (Knowledge Graph) 是当前的研究热点.自从20 ...

  5. 《知识图谱》赵军 学习笔记

    知识图谱读书笔记 文章目录 知识图谱读书笔记 一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期 知识体系构建 知识获取 知识融合 知识存储 ...

  6. 【企业数智化转型】知识图谱(Knowledge Graph)

    关键词:基于行为的学习,基于知识的学习,商业智能,工业4.0,知识图谱,企业图谱, 图数据库, 图计算引擎, 数据可视化 应用场景:征信.风控.问答.医疗.能源.舆情.反欺诈.市场营销.社交网络.企业 ...

  7. 知识图谱入门一:知识图谱介绍

    知识图谱入门一: 一.知识图谱简介 1.1 引言 1.2 什么是知识图谱呢? 1.2.1 什么是图(Graph)呢? 1.2.2 什么是 Schema 呢? 1.3 知识图谱的价值在哪呢? 二.怎么构 ...

  8. Task 1 知识图谱介绍

    目录 Datawhale 知识图谱组队学习 之 Task 1 知识图谱介绍 目录 一.知识图谱简介 1.1 引言 1.2 什么是知识图谱呢? 1.2.1 什么是图(Graph)呢? 1.2.2 什么是 ...

  9. 知识图谱构建(入门)

    参考:http://www.datagrand.com/blog/knowledge-map.html 一.什么是知识图谱? 知识图谱是由 Google 公司在 2012 年提出来的一个新的概念.从学 ...

最新文章

  1. 如何设置采购收货直接转到供应商库存?
  2. linux脚本计算器加减乘除,用shell写一个简易计算器,可以实现加、减、乘、除运算,假如脚本名字为1.sh,执行示例:./1....
  3. 前端小白进阶笔记之多级菜单分享
  4. lucene.net helper类 【结合盘古分词进行搜索的小例子(分页功能)】
  5. linux 自学系列:文件压缩
  6. 考研——考研有用的“宝贝”(软件,公众号,网站,励志电影,音乐)
  7. 内外网电脑远程桌面教程(win10)
  8. linux捕获鼠标点击事件文件,Linux捕捉鼠标事件和键盘事件的方法
  9. oc贴材质透明logo有问题,logo贴图有底色,oc贴图怎么不平铺
  10. 《诗的格律》学习简要
  11. Adobe国际认证证书对于设计师而言,真的很重要?
  12. 【PAT B1015】德才论 (c语言)//答案正确
  13. bash文件无法运行,提示没有那个文件或目录的解决方法
  14. 英文版ubuntu系统如何添加中文拼音输入法
  15. 月租最便宜的手机卡_月租最便宜的手机卡:联通19元手机卡套餐怎么免费办理?...
  16. 第65天-内网安全-域环境工作组局域网探针方案
  17. JS字符串截取 “指定字符” 前面和后面的内容!
  18. 激光SLAM理论与实践-第五期 第一次作业(矩阵坐标变换)
  19. 技术管理者应该如何看待技术、管理、领导的关系?
  20. android中监听的作用,Android里的AdapterView中OnItemClickListener监听器四个参数的含义...

热门文章

  1. “风口猪”指标-寻找大牛股的波段机会
  2. Spring boot 保姆级教程,包学包会,授之以渔
  3. 多项式求解(霍纳规则(Horner Rule))
  4. 餐饮管理系统目的及意义
  5. sd0100 软件解惑
  6. MySQL中enum的用法
  7. java 四则混合运算_四则混合运算,java实现
  8. 群晖NAS通过IPV6设置域名解析
  9. CASE:numpy模块完成简单的股票压力线,阻力线和中轨的线性拟合
  10. 执行用时:10 ms, 在所有 Java 提交中击败了100.00% 的用户 内存消耗:39.6 MB, 在所有 Java 提交中击败了100.00% 的用户 zz-志 发布于 几秒前 0 解题思路