说说Google的挑战者Cuil

转自：http://blog.sina.com.cn/s/blog_46d0a3930100adje.html

2008年7月28日，对于IT业界来说，或许是一个划时代的日子。Google的挑战者，Cuil（音Cool）上线了。

想挑战Google的公司很多，为什么Cuil 这么受人关注？

[1] 原因一，人

Cuil之所以可怕，最主要的是因为它的几个核心人物，掌握了Google的核心机密。

其中Anna Patterson和Russell Power是Google的前雇员，直接负责Google的索引和Page Ranking工作。

Louis Monier是最早的搜索引擎，AltaVista的创始人之一，后来加入eBay，负责搜索引擎工作。再后来，也加入Google，主管一个垂直搜索产品。

Cuil 的CEO，Tom Costello, 虽然不是Google出身，但是在搜索引擎领域，也经营已久。他是Stanford计算机系的博士，毕业后留校任教，直到2000年，入职IBM，负责 WebFountain的研发工作。WebFountain区别于其它搜索引擎的特点，是给文章分类。同时，Tom是Anna的丈夫，从某种意义上说， Cuil是一家夫妻店。

[2] 原因二，规模

在Cuil的主界面里，有这么一行小字，“Search 121,617,892,992 web pages”。而且，这个数字将会不断增大。

讨论Cuil的文章陆续出现，有不少论者认为，Cuil的索引规模大，甚至超过了Google的索引的规模。索引大的好处是，用Cuil可以找到在Google搜索不到的网页。

果真如此吗？

2008 年7月25日，Google官方博客中有这么几个数字。1998年，Google刚上线的时候，它的索引涵盖了大约26,000,000个网页。到了 2000年， Google的索引增加到了大约1,000,000,000个网页。而目前，Google的索引进一步增加到了大约 1,000,000,000,000个网页。

如果Google和Cuil都没有说谎，那么Cuil的涵盖量非但不比Google的大，反而要小8倍。

尽管可能不比Google的大，Cuil的索引不小，这是不争的事实。所以，从网页的涵盖规模来讲，Cuil有实力与Google一拼。

[3] 原因三，信息分类

Google之所以成功，很大程度上取决于它能找到用户想要找的网页。从技术上讲，PageRanking被证明是一个行之有效的，对结果排序的算法。

Cuil不仅对搜索结果排序，而且对结果分类。譬如你搜索“Olympic games”，Cuil把搜索到的结果分为几类，包括夏季奥运会，冬季奥运会，古代奥运会等等。

不仅对搜索结果分类，而且把每一个类，再进一步细分为若干子类，依此类推，形成一个树状结构。

Cuil的界面设计，反映了分类的树状结构的顶部三层节点的内容。

如果把所有搜索结果看成是一棵树的根节点，那么Cuil界面上半部的横向的Tab，枚举的是根节点以下第一层的节点。

而Cuil界面右边的纵向的Drilldown，枚举的是第二层和第三层节点。当用户点击不同的Tab，Drilldown里的内容也相应变换。

反映三层分类的界面设计，用户体验是否好？

我把自己当着实验室的白老鼠，亲自体验了几天，感觉是，1. 层次不是关键问题，三层可以，两层其实也不错。2. 不满意的是分类不准确。明明已经进入“夏季奥运会”子类，偏偏还是看到冬运会的网页。

[4] 分类是否有意义

譬如你想搜索诺贝尔经济学奖得主，科斯在2008年7月14日，在“中国经济改革”学术研讨会的开幕致词，你不需要分类，只需要排序。

如果搜索的目标明确，只需要排序，不需要分类。

如果搜索的目标不明确，走马观花，分类是一个友好的提示，它帮助你把模糊的期望，转变成明确的目标。

[5] 是分类，还是聚类，这是一个问题

从Tom以往的论文猜测，Cuil实现搜索结果分类的办法，是根据网页内容，把网页聚类（clustering）。

Cuil 表面上看是分类(classification)，而暗地里是聚类(clustering)，岂不是自相矛盾？个人认为，这个问题无妨大雅。不管是什么实现手段，对于用户而已，只要分类做得正确即可。Clustering也好，classification也好，甚至人工分类也好，可以兼容并蓄，相辅相成。

Cuil目前偏重于clustering，大概是因为clustering更好操作。

据说常用的英文单词只有两万多个。如果把每一个单词作为一个坐标轴，轴上的刻度是对应单词出现的频率，那么每篇网页都是这个两万多维的空间中的一个点。

如果把所有网页都作为一个点，投射到这个两万多维空间里去，会发现这些点的分布不是均匀分布的，它们像云朵一样围绕着几个中心。聚类算法的目标，就是发现这些云朵的中心，以及云朵的边缘。

[6] 聚类面临的难题，主题的缺失

当用户搜索“Olympic games”的时候，Cuil搜索到了很多相关网页，这些网页三三两两聚集成几朵云。如何给着几朵云取名是一个问题。Cuil把它们命名为“夏季奥运会”，“冬季奥运会”，以及“古代奥运会”。问题是，这些名字是怎么来的？

解决方案 1，根据每朵云的中心所对应的词命名，尤其是那些高频出现的词。但是高频词和主题词并不总是一致的，主题词是概括。一篇主题是冬季奥运会的文章中，高频词很可能是“滑雪”和“滑冰”，而不是“冬季奥运会”。所以，这个方案不太可行。

解决方案 2，预先构建一个语义网（semantic network），罗列出所有的常见词，以及词与词之间的关系。词与词的关系包括从属，同类，同义，反义等等。然后根据每朵云的中心所对应的词，找到他们共同的，而且是最小的属类。

譬如，“滑雪”和“滑冰”的最小属类是“冬季运动”，而不是泛泛的“运动”。又譬如，如果在文章中，不仅高频出现“滑雪”，“滑冰”这两个词，而且也出现“奥运”这个词，那么“冬季运动”这个属类的范围太小，需要进一步扩大，于是“冬季奥运会”成为一个合适的概括。

构建语义网（semantic network）可不是一件容易的工作。Princeton大学的研究者们制作了一个wordnet。但是用户们对wordnet不满意，原因，1.涵盖范围不广， 2. 实用性还有待提高。

譬如，假设我们想做一个生活搜索引擎，当用户输入“牙膏”，期待搜索引擎返回日用百货品商店。但是如果依赖wordnet，搜索引擎找到的，不是百货品店，而是牙科诊所。

解决方案 3，预先构建一个分类树（taxonomy）。譬如，音乐可以分为古典，爵士，摇滚等等。而古典又可以进一步细分为协奏曲(concerto)，奏鸣曲 (sonata)和交响乐(symphony)等等。然后找到和每朵云最相关的分类树的节点。所谓“找到”，实际上就是分类（classification）的工作。

分类树和语义网不同，它的目标不是涵盖所有词，以及所有词与词的关系。它关注的，是如何用一颗最小树，把所有内容分类。所以，比较分类数和语义网，最明显的区别是分类树比语义网，在尺寸方面要小的多。

分类树比语义网要容易构建，事实上，任何门户网站，如新浪和Yahoo！的主版面，都隐含着分类树。譬如，新浪新闻的主版面，把新闻分为政治，财经，军事，社会，体育，娱乐等等。而体育新闻又被细分为奥运，足球，篮球，田径，甚至体育彩票等等。

分类树的方案最容易操作。但是缺点是现有的分类树涵盖范围有限，需要进一步扩大。以往分类树的构建，都是人工完成，如果要进一步扩大树的规模，有没有办法让机器自动完成，或者机器和人工协作完成呢？

[7] 人立方启示录

2008年8月1日，就在北京奥运会即将开幕前夕，设在北京的微软亚洲研究院，公布了一条具有轰动性的科研成果，他们把这个成果命名为"人立方 "。我们知道奥运游泳场馆的名字叫“水立方”，水立方这个名字比较贴切，因为场馆外形是一个四四方方的盒子，而盒子里面主要是水池。但是人立方是什么呢？

我们不妨亲自体验一下，http://renlifang.msra.cn。

譬如，你可以去查查周杰伦的人际关系。你会发现，他与萧邦的关系是偶像，与蔡依林的关系是女友，而与李宇春的关系是新欢。你也可以用它来查查你自己的人际关系图。

通常来讲，你的媒体曝光度越高，人立方的准确性就越高。反过来，如果你发现人立方对你的关系网描述极其不准，在责备人立方的质量之前，可能你应该先认识到，做人低调，是美德，但是同时也给人立方制造了难题。

既然我们有能力来发现人与人的关系网，我们也可以研究词与词，词组与词组的关系。不妨给这个技术取个名，“词立方”。或许你会问，词立方和wordnet不是一回事吗？有两个区别。

区别 1. Wordnet涵盖所有单词，而词立方不追求涵盖所有单词，它只关注用户经常搜索的那些词，还有词组。

区别 2. Wordnet的构建，主要依赖于语言学专家们人工定义每个词的含义，以词与词的相互关系。而词立方的构建依赖于统计。

说说Google的挑战者Cuil相关推荐

Cuil搜尋引擎挑戰Google
前Google員工28日推出新的搜尋引擎「Cuil」,這個讀音為「酷」的搜尋引擎,宣稱搜索的網頁內容是Google的三倍,可以送出更為精確的搜尋結果. Cuil共同創辦人派特森女士(Anna Patt ...
阿里会成为下一个谷歌？谁才是Google真正的挑战者
良多方向觉得阿里下一步即将成为google的挑战者,但不管从办法储蓄仍是资产构造来看,阿里都难当此任.在产业表面上,电商挑战谋求尚有诸多短板,在处分这些底子题目前,空洞切磋这些是没有事理的. ...
阿里将成为下一个谷歌？是谁Google真正的挑战者
非常多观点觉得阿里下一步即将成为google的挑战者,但不管从技术储备还是产业布局来看,阿里都难当此任.在产业模式上.电商挑战搜索尚有诸多短板,在解决这些根本问题前,空泛谈论这些是没有意义的. < ...
谷歌搜索引擎_在搜索引擎上击败Google的4种方法
谷歌搜索引擎 Today a new search engine launched called Cuil. Because of the resumes of the company's found ...
心疼还在用Facebook的你一秒，Snapchat才是未来
编者按:本文来自微信公众号"猎豹智库"(ID:CheetahGlobalLab),作者 Cheetah Lab 周婷:36氪经授权发布. 上个月,有个德国的知名电商公司慕名访问猎豹 ...
国外Cuil搜索引擎江湖称之为“Google杀手”！
搜索引擎Cuil首页截图也许有的朋友已经在开始使用"Guil".如果你是从事英文领域的SEOer,那么"Guil"搜索引擎的横空出世,对我们来说是个好消息!喜 ...
前员工推出新搜索引擎Cuil挑战Google
据纽约时报的报道,几位前Google员工共同创建的全新搜索引擎C uil(读音为Cool)已经上线. 关于Cuil媒体比较关注的是两点: 1 . 它自称的搜索索引量很大,达到 1200亿网页以上. ...
Wolfram Alpha:下一个Cuil还是下一个Google？
Wolfram Alpha,又一款把矛头指向Google的"重量级"搜索引擎.还未正式发布,Alpha即收到了来自媒体的众多赞誉,它是"Google终结者",& ...
《浪潮之巅》 18 挑战者 Google公司
Google公司的成长之迅速,规模之大都是让人敬佩的,Google成为唯一一个能够和微软抗衡的公司,谷歌有很多精明之处,首先就是领导人的精明,他们能够很好地独立在华尔街的操控之下进行发展,然后就是谷歌 ...

说说Google的挑战者Cuil

说说Google的挑战者Cuil相关推荐

最新文章

热门文章