公众号关注 “五分钟学算法”

设为 “星标”,带你了解技术圈内新鲜事

2019 年 11 月 7 日,微信群里突然炸了,大家似乎都在讨论一个叫做 Magi 的搜索引擎,据说搜索结果和现在的搜索引擎很不一样,能够输出以结构化知识呈现的结果。Magi 仿佛“一夜爆红”,访问量剧增,导致自 2012 年就不再更新微博,其他社交媒体也久未有动态的创始人季逸超更新了一条微博:

内容大致是不知道为何 Magi 突然蹿红,在没有做任何推广的前提下访问量剧增,导致 Magi 服务器直接崩了......

在置顶微博中,自称自闭很久的创始人还告诉大家,Magi 其实并不是单纯的网页搜索引擎,而是自主阅读文本并持续纠错的 AI。

这个 AI 真的有这么神奇吗?带着疑问,小编上手实测了一把,结果一下子震惊了。

从上图中可以看到,单单是页面简洁的风格就让人很舒爽,重要的是搜索结果不仅有较为精准的描述,属性中的每一个结果还有对应的链接,并带有标签和主要学习来源部分,最关键的一点是,搜索结果以结构化知识的形式呈现。

相比之下,一些目前流行的搜索引擎效果相形见绌。

再比如输入“大枣和红枣”,结果不但会罗列出功效,还会给出“断言”,表示这两个概念是“近义项”、“又名”、“又称”、“也称”的关系,把鼠标放在右侧的学习来源上,还会显示出断言的根据。

反观另一款流行浏览器,输入相同的关键字,得出的结果如下图,第一条和第二条都是广告,第三条总算有点用了,第四条的时间显示这还是去年的答案。

偶然间在 magi.com 首页停留了一会,小编发现了一个小秘密,Magi 竟然在不断地学习,上图中,短短几秒钟时间,Magi 就学习到了“德国”、“防长”两个词。总之很神奇。

这不禁让人好奇,Magi 究竟是怎样一种搜索引擎呢?为什么搜索效果不同于一般搜索引擎?背后使用了哪些 AI 相 关技术?

接下来,通过 Magi  的官网介绍和季逸超的技术解读,我们可以从中大致了解到这个产品的一部分细节。

Magi 是什么?能做什么?

据官网介绍,Magi 是由 Peak Labs 从无到有自研的基于机器学习的信息抽取和检索系统,它能将任何领域的自然语言文本中的知识提取成结构化的数据,通过终身学习持续聚合和纠错,进而为人类用户和其他人工智能提供可解析、可检索、可溯源的知识体系。11 月,Peak Labs 发布了公众版 Magi.com。

与搜索引擎不同,Magi 不仅收录互联网上的海量文本,还会去尝试理解并学习这些文本中蕴含的知识和数据。此外,Magi 从零研发了一套互联网搜索引擎,所以 Magi.com 同时提供全网规模的普通搜索结果,学习过程是在无人干预的情况下 7 x 24 小时不间断运行。

AI 技术解读

互联网数据浩如烟海,质量参差不齐,如何将这些数据处理成机器能够理解的数据结构时隔巨大的挑战。Magi.com 提供了与互联网数据交互的新方式,而 Magi 系统背后的技术平台则承载着另一半重要的意义:让机器像人一样能理解并充分利用互联网中无穷无尽的知识。

那么,Magi 到底用到了哪些 AI 技术呢?

  • 从零设计研发了整个技术堆栈,包括原创 succinct 索引结构的分布式搜索引擎

  • 使用专门设计的 Attention 网络的神经提取系统

  • 不依赖 Headless 浏览器的流式抓取系统

  • 支持混合处理 170 余种语言的自然语言处理管线

  • 独一无二的训练/预训练数据。

  • 这个系统通过引入传统搜索中的 query-independent 质量因素,使得优质可靠的消息源会更被重视

  • 其基于多级迁移学习的提取模型则完全摒弃了人工规则、角色标注、依存分析等限制泛化能力的环节,并且可在 zero-resource 的前提下直接应用到各种外语文本上并取得令人满意的效果

  • 而随着数据的积累以及来源多样性的扩充,这个系统还能够持续学习与调整,自动消除学习到的噪音和错误结果。

而季逸超本人也在 Magi 推出后在知乎上进行了更加详细而全面的技术解读。

来源:知乎用户季逸超,链接:

https://www.zhihu.com/question/354059866/answer/881655371

工作原理

How it works (灵魂手绘凑合看吧...)

几年来 Magi 的产品形态改变了很多(请分开看待 Magi 系统和 Magi.com 这个搜索引擎),技术上的进步主要体现在以下几点:

一、利用率和通用性

  1. 能够 exhaustively 提取重叠交错的知识,且不利用 HTML 特征。

  2. 不预设 predicate / verb,实现真正意义上的 “Open” Information Extraction。具体来说,Magi 不再依赖于预设的规则和领域,“不带着问题” 地去学习和理解互联网上的文本信息,同时尽可能找出全部信息 (exhaustive) 而非挑选唯一最佳 (most promising)。Magi 通过一系列预训练任务淡化了具体实体或领域相关的概念,转而学习 “人们可能会关注内容中的哪些信息?”。为 Magi 设计了专门的特征表达、网络模型、训练任务、系统平台,并投入大量精力逐渐构建了 proprietary 的专用训练/预训练数据

二、覆盖率和实效性

  1. 配合自家 web 搜索引擎以评估来源质量,信息源和领域不设白名单,综合Clarity(清晰度)、Credibility(可信度)、Catholicity(普适性)三个 Magi 权衡知识工程的规模化和准确性难题的量化标准来进行来源质量评估。

  2. 大幅提升实时性,热点新闻发布后几分钟内,就可以搜到结构化知识了。

三、可塑性和国际化

  1. 没有前置 NER 和 dependency parsing 等环节,减少母文本信息的损失。为 Magi 的提取模型设计了专用的 Attention 网络结构以及数个配套的预训练任务。具体来说,网络结构主要解决了复杂依赖关系和搜索空间爆炸的问题,让长文本下高效的 exhaustive 的知识提取成为可能。预训练任务则是对上述 “环节” 问题的新尝试,主要目标是淡化实体、predicate、领域的约束,充分利用多种不同的训练数据,并且降低线上持续学习修正过程中模型更新的开销。

  2. 技术栈完全 language-independent,可以实现低资源和跨语言 transfer。由于技术栈本身已经完全 language-independent,在设计预训练任务时,会专门 “引导” 并期望模型能在较浅层对语言有足够的抽象能力。

Peak Labs和创始人PeakJi

到这里,技术部分基本上已经讲完了,如果你对 Magi 的技术感兴趣,可以访问官网( https://www.peak-labs.com/docs/zh/Magi/intro)和季逸超的知乎,了解更多技术细节。

现在我们来了解一下 Magi 背后的团队——Peak Labs,以及创始人 PeakJi 。

先说这位具有传奇色彩的创始人PeakJi。PeakJi 真名季逸超,90 后男生,小时候在美国生活,在北大附中读高中期间接触 iOS并加入威锋网 WEIP 技术组,先后参与了 wefit 输入法的完善和各种越狱研究,高三设计并开发猛犸 1 网页浏览器,大一推出猛犸 4。

虽然现在 App 应用市场已经看不到猛犸网页浏览器的身影,但在当时这个浏览器被国际知名评测网站 App Advice评价,“猛犸4”重新定义了浏览器的标准,还有测试网站建议在 iPhone 上预装这款浏览器,可见其影响力。这让他在 IT 界一炮而红,并斩获了 Macworld 2011 特等奖。

据说,PeakJi 所有的产品都是由他独自完成设计、美工、算法、编码、测试和推广,是个十足的天才少年。

2013 年,季逸超入选福布斯创业榜30 位 30 岁以下的中国大学生创业者清单,登上《福布斯》杂志封面。

在现实生活中,季逸超似乎是个具有奇怪幽默感的人。在知乎上“季逸超是一个什么样的人?他有什么轶事?”的问题中,他脑补出一出本人被人肉并“悲剧”的大戏,并以第三者的视角告诉大家,他只是一个热爱电脑,与代码世界有着不解之缘的技术宅,还自嘲是登上《福布斯》榜最穷的人????。

2012 年,在北大念书的季逸超创建 Peak Labs,并发明了 Rasgueado 输入法。Peak Labs 由红杉资本和真格基金共同出资组建,聚焦于信息提取和检索技术的研究和开发,把自然语言中的知识转化为不可估量的价值。目前来看,Peak Labs 的产品和技术包括神经信息提取系统 Ireul,网页大规模搜索引擎 Ramiel,多语言分析 pipeline Arael 和分布式检索系统 Matarael 等,Magi 服务包括普惠版和企业版两种。

最后,不得提一下,Magi 也有很多不足之处,这一点 Magi 官网和季逸超都坦承,Magi 确实还存在一些问题,比如消歧义、工程性,以及规模化和准确度等。

事实上也是这样,在搜索一些简单的问题时,有时你会发现 Magi 给不出让人满意的答案,甚至有点令人喷饭,而且速度更慢一些:

关于搜索慢的问题,季逸超也在微博中说明了,这是由于单次搜索的计算量比一般的网页搜索要重很多。

另外,它不是一款搜索引擎,像搜索网址这类任务也达不到很好的效果,也无法进行图片搜索。

Peak Labs 的官网指出,Magi 已经展示出的开放领域信息提取能力,可以应用到企业客户所在的细分领域内,变成一个更加强大的信息抽取系统,让每一个领域、每一家企业都可以轻松地打造属于自己的知识图谱,他们希望未来的 Magi 系统能够成为“知识领域的 ImageNet”。

正如官网所说,Magi 现在还远算不上成熟,但其特性决定了它无穷的可能性和成长空间。也许在不远的未来,伴随着整个行业的进步,Magi 所构建的包容万事万物的结构化网络将成为通向可解释人工智能的基石。

未来,也许 Magi 会成为打破现有搜索引擎原理的新范式,开启全新的结构化知识搜索引擎时代,改变我们对信息检索和知识获取方式的刻板印象,谁说得准呢?所以,多一点耐心,相信 Magi 或类似的研究会带给我们更多的惊喜。

-----------------------

公众号:五分钟学算法(ID:CXYxiaowu)

博客:www.cxyxiaowu.com

知乎:程序员吴师兄

一个正在学习算法的人,致力于将算法讲清楚!

长按下图二维码关注,和你一起领悟算法的魅力

戳一下下方的小程序,24 小时一起学算法

这款超强搜索神器,我爱了!相关推荐

  1. 这款超级搜索神器,我爱了!

    公众号关注 "GitHubDaily" 设为 "星标",每天带你逛 GitHub! 大家好,我是小G. 貌似有挺长时间没跟大家分享过效率工具了,今天抽空给大家推 ...

  2. 推荐一款文件搜索神器Everything!

    忘了文件在哪放, Win10文件管理器搜索极慢? 你有没有过心态崩溃? ⬇⬇再也不怕了!有它!⬇⬇ 1 Everything是什么? 它是 Windows平台 上的一款搜索引擎 基于文件名快速定文件和 ...

  3. windows快速搜索神器everything,让你搜索文件提速百倍!

    我们在使用windows时经常需要查找电脑上的文件,有时候,电脑上的文件非常多,也很容易搞乱,一般情况下我们最对的还是windows自带的磁盘文件搜索功能,但是我们知道,这个搜索速度实在是太慢,有时候 ...

  4. 【搜索神器——Everything】的下载安装使用教程

    1. 软件介绍   Everything是voidtools开发的一款文件搜索工具,是一个运行于Windows系统,基于文件.文件夹名称的快速搜索引擎,它在搜索之前会把所用的文件和文件夹都列出来,与W ...

  5. 一款网盘搜索神器 + 某度网盘不限速下载软件

    众所周知,大家都是爱好学习的优秀青年,经常需要去各大网盘倒腾一些学习资料,但是市面上网盘众多,导致大家不能在第一时间找到所需的学习资料,以至心灰意冷,失去了学习的动力,放弃美好人生.作为一个负责任的博 ...

  6. 度盘搜失效?这款网盘搜索神器万万别错过!

    奶糖猫来啦!资源搜索一直以来都是需求非常大的一方面,总会有伙伴问我有没有这方面比较好用的软件. 之前很火的度盘搜失效了,后面也出现了一系列的资源搜索工具,但总存在一个致命的问题,资源普遍太老了,不能满 ...

  7. XDown ,一款超强Mac下载神器支持某盘下载

    XDown 中文版是一款超强Mac下载神器,基本上可以下载一切类型的文件,而且XDown完全免费,并且没有广告,支持,128并发多线程下载,支持标准FTP/HTTP/HTTPS/HTTP2协议下载 , ...

  8. XDown 2.0.2.3中文版:一款超强Mac下载神器支持某盘下载

    XDown 中文版是一款超强Mac下载神器,基本上可以下载一切类型的文件而且完全免费.并且没有广告,支持,128并发多线程下载,支持标准FTP/HTTP/HTTPS/HTTP2协议下载 ,支持BT种子 ...

  9. Typora 收费?试试这款开源 Markdown 神器!好用还美观

    点击关注公众号,回复"1024"获取2TB学习资源! Markdown是一种轻量级标记语言,创始人为约翰·格鲁伯(英语:John Gruber).它允许人们使用易读易写的纯文本格式 ...

最新文章

  1. java怎么统计字符串中各个字母的个数,人生转折!
  2. hibernate和spring学习
  3. Django startproject的问题
  4. 学习Python技术有哪些优势?
  5. Java基本sql_常用sql
  6. mysql架构组成_第 2 章 MySQL 架构组成
  7. linux监控脚本是否运行状态,Linux Shell脚本之通过json判断应用程序内部运行状态...
  8. 贵州大学考博计算机学院官网,贵州大学研究生院
  9. Ksplice:不再重启你的Linux
  10. HTML5期末大作业:动漫网站设计——千与千寻(10页) 含设计报告 HTML+CSS+JavaScript 学生动漫网页设计模板下载 海贼王大学生HTML网页制作作品
  11. 沟通CTBS远程接入软件研究
  12. 希捷硬盘无法安全弹出如何解决?
  13. excel的poi和EasyExcel的基本读写
  14. 谷歌浏览器安装Selenium IDE插件
  15. 量化人才之战如何取胜
  16. 英语字根(转)--推荐
  17. Linux硬盘空间爆满后如何清理
  18. Linux-根目录(/)的意义与内容
  19. 看完南京前11年房价,我哭了!今年实在太特么狠了
  20. HtmlEncode是做什么的?

热门文章

  1. c语言去掉文件中重复单词,可以读出文件中出现所有单词的出现次数并显示求只显示出现最多5...
  2. 2020链家杭州二手房数据分析(截止到2020年09月07日)
  3. matlab 例题sin,matlab基础练习题(带答案)
  4. The 2017 ACM-ICPC Asia East Continent League Final记录
  5. Java性能调优工具:MAT内存分析工具,上万字带你彻底了解
  6. 高级软件测试工程师待遇,【华为工资】高级软件测试工程师待遇-看准网
  7. 牛客网第二次大回馈,关于第一次使用华为云服务器的小小看法
  8. Flink运行时架构 完整使用 (第四章)
  9. oracle查看用户连接及kil连接
  10. m3u8 php vob 服务器,使用ffmpeg下载m3u8