在获取信息和洞察力方面,我们正处于一个彻底转变的边缘,我们需要更聪明、更有效地工作。在这篇博客中,我将展示人工智能技术如何增强互联网搜索,现在如何应用于组织内部,从而彻底改变企业搜索所能实现的目标。

信息指数增长

我们所能得到的信息量是惊人的。而且它一直在呈指数级增长:数据量已经达到了44千兆字节,预计在未来五年内将达到175千兆字节(IDC)。80%的数据是非结构化的(电子邮件、文本文档、音频、视频、社交帖子等等),只有20%是某种结构化的系统。

为了从这些海量资源中找到答案,并准确定位我们要寻找的东西,我们需要一种方法从文件中提取事实,并将这些事实存储在便于获取的地方。今天,搜索引擎巨头谷歌和必应正是这样做的,他们将这些事实存储在一个“知识图”中,这个图与他们已经使用多年的搜索引擎紧密相连。

他们的方法是否有效?它如此成功地提供了答案——并且以惊人的规模提供了答案——以至于我们认为这一切都是理所当然的。

搜索变得越来越智能

在过去的几年里,你会注意到我们在日常生活中使用搜索引擎寻找答案的方式发生了微妙而深刻的变化。

当搜索引擎首次被引入时,人们很快就发现,问题越长越复杂,得到正确答案的可能性就越小。因为像“乐购最畅销的汤里有多少卡路里?”虽然不太可能产生结果,但我们成了关键词搜索方面的专家。通过将我们的查询转换成带有“Tesco soup nutrition”这样的关键词的短语,我们发现搜索引擎提供了更多相关的文件,甚至提供了直接的答案,挖掘出了一些重要的信息,这些信息可以让我们改进工作任务,加深我们的知识,或者解决争论。

然而,如今,我们对搜索的期望更多地与我们使用数字助手的方式一致,如Siri、谷歌Home和Alexa,所有这些都是由幕后的搜索引擎驱动的。当我们向他们提问时,我们得到了事实作为回报。因此,我们看到搜索引擎的查询在本质上变得越来越“发现事实”。

大的变化?现在,搜索引擎可以找到,优先排序,并显示我们需要的事实。它们不再像以前那样简单地返回页面(url)列表。相反,它们在可能的时间和地点为问题提供答案,同时提供详细的知识卡片和其他相关的搜索查询,所有这些都旨在帮助我们缩短访问关键事实所需的时间。同样令人印象深刻的是,搜索引擎和数字助手返回的结果比以往任何时候都更准确、更直观。

这对企业搜索意味着什么?

像谷歌和必应这样的搜索引擎在很大程度上归功于两项重大创新。首先,在2012年,谷歌在其搜索引擎中添加了一个知识图。后来,在2015年,该公司推出了RankBrain。两者都是具有里程碑意义的进展。

同样的方法现在也可以应用于企业搜索。将这一技术层添加到企业搜索引擎中,有可能使它们比以往任何时候都更智能。这里的游戏规则改变者是智能企业搜索(也被称为认知搜索或洞察力引擎)。通过将搜索与大量人工智能技术(如自然语言处理、语义理解、机器学习和知识图)相结合,智能企业搜索可以为用户提供一个显著改进的搜索体验——具有更多的洞察力。

知识图谱——为知识建模的一种非常强大的方法

第一个图的知识。在将其搜索引擎转变为“知识引擎”的过程中,谷歌一直在使用知识图来提供有关人物、地点、公司和主题等实体的结构化和详细信息。回想一下你最近一次搜索名人的年龄或者当地药剂师的营业时间,而不是浏览搜索结果列表而直接得到答案的情形。这些信息可能来自知识图,而不是搜索引擎。

因此,它们在问答系统中被证明是非常强大的。知识图越含水,搜索就变得越有洞察力。从结构化数据填充知识图相对简单(假设您信任数据源),从非结构化数据填充知识图需要使用复杂的自然语言处理(NLP)技术和文档权限模型。

为了说明可以实现什么,考虑下面的一段文字。里面有很多信息:

Gillian Russell出生在Invercargill。她是Gingerbeard有限公司的首席执行官,也是Gingerbeard咨询集团的公司秘书。Gillian和她的丈夫Phil Lewis住在英国的沃金厄姆。”

我们可以使用NLP来提取和分类文本示例中提到的事实作为语义三元组。这是三种信息:主体-谓词-对象,它们几乎可以建模实体之间的任何关系。这种编码信息的方法使知识能够以机器可读的方式呈现。

从这些语义三元组中可以生成表示相关实体的知识图。这个知识图是问答系统的强大基础,然后可以遍历它以提供答案,甚至是复杂的问题。

然而,在我们把知识图表放在所有文档上之前,有许多事情需要考虑:

  • 我们是否信任此位置的数据源/文档中的信息?

  • 吉尔/吉莉安和上面提到的吉莉安·拉塞尔是同一个人吗?

  • 是“姜胡子”公司吗?还是海盗类型的人?

  • 我们想要提取和记住这些实体之间的什么关系?

  • 当他们询问时,谁被允许“接受”这些事实?

假设我们可以为一个给定的用例解决这些类型的问题,下面说明了建模知识和从这个文本示例创建知识图的一般过程。

图1所示。建模知识

这个知识模型可以开始回答如下问题:

  • Gillian Russell是哪家公司的顶级员工?

  • 谁是姜须有限公司的老板?

  • 吉尔认识菲尔·刘易斯吗?

  • 沃金厄姆有谁出生在Invercargill?

正如你所看到的,这是一种强大的资源。

单词向量——机器理解意思的方式

这个领域的第二个创新是“单词向量”,它利用机器学习技术来模拟单词含义的多样性和深度。巧妙的是,通过将单词表示为向量,基于人工智能的系统建立了一种我们如何使用单词以及它们之间关联的感觉。

例如,在一个基于人工智能的系统的简化的“心理空间”中,单词“阿姨”(一个亲戚)与“Beeb阿姨”(英国新闻频道BBC的昵称)占据了不同的“心理空间”。“山姆大叔”(联邦政府)和“叔叔”的意思不一样。而在人工智能的“心理空间”中,“阿姨”和“叔叔”的意思是紧密相连的,而“Beeb阿姨”和“山姆大叔”则不是。

图2:将单词表示为向量

以人工智能为基础的系统甚至可以理解一些单词的意思是如何随时间变化的(见图3)。单词向量让搜索引擎知道,当搜索50年代的“radio broadcasts”时,不应该找到写于19世纪50年代的含有“broadcast”的文件。

图3。单词的意思会随着时间而变化

毫不奇怪,对于某些查询类型,单词向量立即使谷歌的准确性提高了15%。随后的创新,如BERT和其他创新,进一步细化了性能,使人们能够更好地理解所使用的词汇。

为企业带来更智能的搜索

对企业来说,真正令人兴奋的事情是什么?我们现在可以开始在组织内部复制谷歌式的搜索体验——重新定义当人们被智能机器增强时可以实现的目标。

谷歌、亚马逊和微软的云搜索产品最近都宣布了与知识图集成的增强企业搜索解决方案。其他传统的内部搜索解决方案也开始意识到与知识图集成的好处。

我们可以利用表面上迥然不同的技术创新带来的巨大碰撞,来彻底改变人们寻找事实并得到他们想要答案的方式。

我已经在搜索行业工作了30年,为世界各地的组织工作过数百个企业搜索项目。而且从来没有这么多的机会来彻底重新定义搜索的功能。利用最新的技术,我们可以从支离破碎的数据点中创造新的价值。现在可以对多个数据片段如何组合在一起获得独特的见解。

由于人工智能技术如NLP和知识图正在迅速成熟,企业将受益于这些技术不断发展的解决问题的能力。不久,我们将能够比以往更准确、更快地回答令人难以置信的复杂问题。无论是发现新的医疗方法,发现看不见的市场变化,还是发现欺诈,每个行业的组织都将获得巨大的利益。

本文:http://jiagoushi.pro/node/1154

讨论:请加入知识星球【首席架构师圈】或者小号【jiagoushi_pro】

微信公众号 【首席架构师智库】
适合物业仔细反复阅读。
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
微信小号 激烈深度讨论,报上你想加入的群:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.
社群已经有5000人,赶快加入讨论。
QQ群 深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。

QQ大群,不用担心群满。

视频号 【首席架构师智库】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

知识星球 向大咖提问,近距离接触,或者获得私密资料分享。 知识星球【首席架构师圈】
微信圈子 志趣相投的同好交流。 微信圈子【首席架构师圈】
喜马拉雅 路上或者车上了解最新黑科技资讯,架构心得。 【智能时刻,架构君和你聊黑科技】
知识星球 认识更多朋友,职场和技术闲聊。 知识星球【职场和技术】

谢谢大家关注,转发,点赞和在看。

「智能企业搜索」:为什么知识图和NLP可以提供所有正确答案相关推荐

  1. 「智能交通技术」知识星球更新内容(2.20至2.28)

    智能交通技术星球持续更新内容,增加了研究报告.白皮书和解决方案.希望对交通相关行业的朋友有所帮助. 解决方案 多式联运物流供应链信息服务平台工可报告 iTSTech 2022 城市大脑解决方案 阿里云 ...

  2. 「智能交通技术」知识星球内容介绍

    简介 「智能交通技术」知识星球是为数不多的交通领域专业,由微信公众号:智能交通技术支撑.星球探讨智能交通及相关领域专业技术发展.共享行业标准规范.分析报告.技术方案和项目信息等. 目前星球内主要设置了 ...

  3. 「智能交通技术」知识星球更新内容(3.1至2.9)

    智能交通技术星球持续更新内容,增加了研究报告.白皮书和解决方案.希望对交通相关行业的朋友有所帮助. 解决方案 智能交通管理系统建设方案报告 iTSTech 2020 智能交通运行监测调度平台(TOCC ...

  4. 生态伙伴 | 身边的法律人都在用的「觅律搜索」入驻飞书啦!

    法律人的日常工作中,离不开案例文书.法律法规的检索.而如何高效.便利的进行内容检索,一直困扰着法律人. 本期飞书生态伙伴「觅律搜索」是一款专门为法律人量身定制的智能法律信息检索工具.收录超过5000万 ...

  5. 视频化全链路智能上云?一文详解什么是阿里云视频云「智能媒体生产」

    视频化链路在革新 人工向智能.小众向大众 标准向定制.慢钝向实时 视频创作与传播的全流程在革新. 对于视频的生产与消费,其全链路包含采集.制作.管理.分发.消费五个阶段,而云计算和网络的发展,为每个环 ...

  6. 关于主机的思维导图_「停课不停学」思维导图—初中语文全部知识点总结,高清可打印...

    导读 思维导图的创始人东尼·博赞先生在读大学的时候,作为一名大一新生,在第一天上课时,好奇心就被略带傲慢的教授点燃了,因为他之前从来没见一个老师可以不用翻花名册点名,而且是第一次上课,全部是新生的情况 ...

  7. 「春招系列」30张图理解HTTP在面试中所有会出现的题

    前言 又是一年金三银四,春招与跳槽热闹的开展着,而在面试过程中,HTTP 被提问的概率还是非常高的. 我搜集了 5 大类 HTTP 面试常问的题目,同时这 5 大类题跟 HTTP 的发展和演变关联性是 ...

  8. 企业防火墙代替路由器_「防火墙技术连载」基础知识篇 1、什么是防火墙

    这是我多年以前学习的防火墙的时候学到的文章,是华为官方强叔的分享,文章由浅入深,非常适合初学者,我学习了之后受益匪浅,现在整理一下分享给头条的伙伴们,希望对IT技术感兴趣的初学者朋友们可以从中有所收获 ...

  9. 激光干涉仪使用方法_激光干涉仪选择几点建议「智能制造2025」

    随着中国的崛起,影响国家战略的制造业越发受到国家的重视,智能制造2025在此背景下应运而生中国制造业处于产业链中下游也是目前的一个现状,一是由于没有掌握较为核心的技术,譬如:工业CAD/CAM软件(U ...

最新文章

  1. 中小型研发团队架构实践:高效率、低风险,一键发布并测试的持续集成工具Jenkins...
  2. 组态王7.5安装教程
  3. WinForm 数据库无限填充树目录 treeView
  4. php://input allow_url_include,php allow_url_include的应用和解释_PHP教程
  5. python三大结构、顺序结构_Python学习笔记3——三大结构:顺序,分支,循环3
  6. 深入浅出ExtJS 第六章 布局
  7. 常见加密解密简单总结
  8. linux编译安装mysql的意思,linux编译模式安装mysql 步骤说明
  9. 廖雪峰Python基础练习作业
  10. 产品小白的Axure之路
  11. 数学建模之排队论模型及代码
  12. 安装sas9.4版本sid过期问题
  13. LeCun、Bengio、Hinton三巨头曾合体,Nature发文综述深度学习(论文精华)
  14. redis雪崩 击穿 穿透
  15. github免费空间玩法
  16. 利用MPU6050 + OLED屏显示3D矩形效果
  17. 《信息物理融合系统(CPS)设计、建模与仿真——基于 Ptolemy II 平台》——1.10 小结...
  18. MTK androiod5.1源码精简系统APP
  19. jstree的简单使用例子
  20. 微信小程序仿京东优惠券

热门文章

  1. 一起来参与安全知识小竞赛(2022第三届网鼎杯网络安全大赛——青龙组)
  2. [BZOJ4827][Hnoi2017]礼物(FFT)
  3. 计算机游戏攻略32关,保卫萝卜3单机版工厂关卡第32关详细攻略
  4. 写自己的故事II + 2019年年度总结
  5. 录制游戏视频——fraps
  6. window10怎么卸载php,win10怎么把cad卸载干净?
  7. 12个常用的数据思维图
  8. kali中的中国菜刀weevely
  9. 全场景AI高清液晶电视机,和人工智能一起观看LPL春季赛
  10. 八大基本数据类型的默认值