转自:http://blog.sina.com.cn/s/blog_46d0a3930100adje.html

2008年7月28日,对于IT业界来说,或许是一个划时代的日子。Google的挑战者,Cuil(音Cool)上线了。

想挑战Google的公司很多,为什么Cuil 这么受人关注?

[1] 原因一,人

Cuil之所以可怕,最主要的是因为它的几个核心人物,掌握了Google的核心机密。

其中Anna Patterson和Russell Power是Google的前雇员,直接负责Google的索引和Page Ranking工作。

Louis Monier是最早的搜索引擎,AltaVista的创始人之一,后来加入eBay,负责搜索引擎工作。再后来,也加入Google,主管一个垂直搜索产品。

Cuil 的CEO,Tom Costello, 虽然不是Google出身,但是在搜索引擎领域,也经营已久。他是Stanford计算机系的博士,毕业后留校任教,直到2000年,入职IBM,负责 WebFountain的研发工作。WebFountain区别于其它搜索引擎的特点,是给文章分类。同时,Tom是Anna的丈夫,从某种意义上说, Cuil是一家夫妻店。

[2] 原因二,规模

在Cuil的主界面里,有这么一行小字,“Search 121,617,892,992 web pages”。而且,这个数字将会不断增大。

讨论Cuil的文章陆续出现,有不少论者认为,Cuil的索引规模大,甚至超过了Google的索引的规模。索引大的好处是,用Cuil可以找到在Google搜索不到的网页。

果真如此吗?

2008 年7月25日,Google官方博客中有这么几个数字。1998年,Google刚上线的时候,它的索引涵盖了大约26,000,000个网页。到了 2000年, Google的索引增加到了大约1,000,000,000个网页。而目前,Google的索引进一步增加到了大约 1,000,000,000,000个网页。

如果Google和Cuil都没有说谎,那么Cuil的涵盖量非但不比Google的大,反而要小8倍。

尽管可能不比Google的大,Cuil的索引不小,这是不争的事实。所以,从网页的涵盖规模来讲,Cuil有实力与Google一拼。

[3] 原因三,信息分类

Google之所以成功,很大程度上取决于它能找到用户想要找的网页。从技术上讲,PageRanking被证明是一个行之有效的,对结果排序的算法。

Cuil不仅对搜索结果排序,而且对结果分类。譬如你搜索“Olympic games”,Cuil把搜索到的结果分为几类,包括夏季奥运会,冬季奥运会,古代奥运会等等。

不仅对搜索结果分类,而且把每一个类,再进一步细分为若干子类,依此类推,形成一个树状结构。

Cuil的界面设计,反映了分类的树状结构的顶部三层节点的内容。

如果把所有搜索结果看成是一棵树的根节点,那么Cuil界面上半部的横向的Tab,枚举的是根节点以下第一层的节点。

而Cuil界面右边的纵向的Drilldown,枚举的是第二层和第三层节点。当用户点击不同的Tab,Drilldown里的内容也相应变换。

反映三层分类的界面设计,用户体验是否好?

我把自己当着实验室的白老鼠,亲自体验了几天,感觉是,1. 层次不是关键问题,三层可以,两层其实也不错。2. 不满意的是分类不准确。明明已经进入“夏季奥运会”子类,偏偏还是看到冬运会的网页。

[4] 分类是否有意义

譬如你想搜索诺贝尔经济学奖得主,科斯在2008年7月14日,在“中国经济改革”学术研讨会的开幕致词,你不需要分类,只需要排序。

如果搜索的目标明确,只需要排序,不需要分类。

如果搜索的目标不明确,走马观花,分类是一个友好的提示,它帮助你把模糊的期望,转变成明确的目标。

[5] 是分类,还是聚类,这是一个问题

从Tom以往的论文猜测,Cuil实现搜索结果分类的办法,是根据网页内容,把网页聚类(clustering)。

Cuil 表面上看是分类(classification),而暗地里是聚类(clustering),岂不是自相矛盾?个人认为,这个问题无妨大雅。不管是什么实 现手段,对于用户而已,只要分类做得正确即可。Clustering也好,classification也好,甚至人工分类也好,可以兼容并蓄,相辅相 成。

Cuil目前偏重于clustering,大概是因为clustering更好操作。

据说常用的英文单词只有两万多个。如果把每一个单词作为一个坐标轴,轴上的刻度是对应单词出现的频率,那么每篇网页都是这个两万多维的空间中的一个点。

如果把所有网页都作为一个点,投射到这个两万多维空间里去,会发现这些点的分布不是均匀分布的,它们像云朵一样围绕着几个中心。聚类算法的目标,就是发现这些云朵的中心,以及云朵的边缘。

[6] 聚类面临的难题,主题的缺失

当用户搜索“Olympic games”的时候,Cuil搜索到了很多相关网页,这些网页三三两两聚集成几朵云。如何给着几朵云取名是一个问题。Cuil把它们命名为“夏季奥运会”,“冬季奥运会”,以及“古代奥运会”。问题是,这些名字是怎么来的?

解决方案 1,根据每朵云的中心所对应的词命名,尤其是那些高频出现的词。但是高频词和主题词并不总是一致的,主题词是概括。一篇主题是冬季奥运会的文章中,高频词很可能是“滑雪”和“滑冰”,而不是“冬季奥运会”。所以,这个方案不太可行。

解决方案 2,预先构建一个语义网(semantic network),罗列出所有的常见词,以及词与词之间的关系。词与词的关系包括从属,同类,同义,反义等等。然后根据每朵云的中心所对应的词,找到他们共同的,而且是最小的属类。

譬如,“滑雪”和“滑冰”的最小属类是“冬季运动”,而不是泛泛的“运动”。又譬如,如果在文章中,不仅高频出现“滑雪”,“滑冰”这两个词,而且也出现“奥运”这个词,那么“冬季运动”这个属类的范围太小,需要进一步扩大,于是“冬季奥运会”成为一个合适的概括。

构建语义网(semantic network)可不是一件容易的工作。Princeton大学的研究者们制作了一个wordnet。但是用户们对wordnet不满意,原因,1.涵盖范围不广, 2. 实用性还有待提高。

譬如,假设我们想做一个生活搜索引擎,当用户输入“牙膏”,期待搜索引擎返回日用百货品商店。但是如果依赖wordnet,搜索引擎找到的,不是百货品店,而是牙科诊所。

解 决方案 3,预先构建一个分类树(taxonomy)。譬如,音乐可以分为古典,爵士,摇滚等等。而古典又可以进一步细分为协奏曲(concerto),奏鸣曲 (sonata)和交响乐(symphony)等等。然后找到和每朵云最相关的分类树的节点。所谓“找到”,实际上就是分类 (classification)的工作。

分类树和语义网不同,它的目标不是涵盖所有词,以及所有词与词的关系。它关注的,是如何用一颗最小树,把所有内容分类。所以,比较分类数和语义网,最明显的区别是分类树比语义网,在尺寸方面要小的多。

分类树比语义网要容易构建,事实上,任何门户网站,如新浪和Yahoo!的主版面,都隐含着分类树。譬如,新浪新闻的主版面,把新闻分为政治,财经,军事,社会,体育,娱乐等等。而体育新闻又被细分为奥运,足球,篮球,田径,甚至体育彩票等等。

分类树的方案最容易操作。但是缺点是现有的分类树涵盖范围有限,需要进一步扩大。以往分类树的构建,都是人工完成,如果要进一步扩大树的规模,有没有办法让机器自动完成,或者机器和人工协作完成呢?

[7] 人立方启示录

2008年8月1日,就在北京奥运会即将开幕前夕,设在北京的微软亚洲研究院,公布了一条具有轰动性的科研成果,他们把这个成果命名为"人立方 "。我们知道奥运游泳场馆的名字叫“水立方”,水立方这个名字比较贴切,因为场馆外形是一个四四方方的盒子,而盒子里面主要是水池。但是人立方是什么呢?

我们不妨亲自体验一下,http://renlifang.msra.cn。

譬如,你可以去查查周杰伦的人际关系。你会发现,他与萧邦的关系是偶像,与蔡依林的关系是女友,而与李宇春的关系是新欢。 你也可以用它来查查你自己的人际关系图。

通常来讲,你的媒体曝光度越高,人立方的准确性就越高。反过来,如果你发现人立方对你的关系网描述极其不准,在责备人立方的质量之前,可能你应该先认识到,做人低调,是美德,但是同时也给人立方制造了难题。

既然我们有能力来发现人与人的关系网,我们也可以研究词与词,词组与词组的关系。不妨给这个技术取个名,“词立方”。或许你会问,词立方和wordnet不是一回事吗?有两个区别。

区别 1. Wordnet涵盖所有单词,而词立方不追求涵盖所有单词,它只关注用户经常搜索的那些词,还有词组。

区别 2. Wordnet的构建,主要依赖于语言学专家们人工定义每个词的含义,以词与词的相互关系。而词立方的构建依赖于统计。

说说Google的挑战者Cuil相关推荐

  1. Cuil搜尋引擎 挑戰Google

    前Google員工28日推出新的搜尋引擎「Cuil」,這個讀音為「酷」的搜尋引擎,宣稱搜索的網頁內容是Google的三倍,可以送出更為精確的搜尋結果. Cuil共同創辦人派特森女士(Anna Patt ...

  2. 阿里会成为下一个谷歌?谁才是Google真正的挑战者

    良多方向觉得阿里下一步即将成为google的挑战者,但不管从办法储蓄仍是资产构造来看,阿里都难当此任.在产业表面上,电商挑战谋求尚有诸多短板,在处分这些底子题目前,空洞切磋这些是没有事理的.      ...

  3. 阿里将成为下一个谷歌?是谁Google真正的挑战者

    非常多观点觉得阿里下一步即将成为google的挑战者,但不管从技术储备还是产业布局来看,阿里都难当此任.在产业模式上.电商挑战搜索尚有诸多短板,在解决这些根本问题前,空泛谈论这些是没有意义的. < ...

  4. 谷歌搜索引擎_在搜索引擎上击败Google的4种方法

    谷歌搜索引擎 Today a new search engine launched called Cuil. Because of the resumes of the company's found ...

  5. 心疼还在用Facebook的你一秒,Snapchat才是未来

    编者按:本文来自微信公众号"猎豹智库"(ID:CheetahGlobalLab),作者 Cheetah Lab 周婷:36氪经授权发布. 上个月,有个德国的知名电商公司慕名访问猎豹 ...

  6. 国外Cuil搜索引擎 江湖称之为“Google杀手”!

    搜索引擎Cuil首页截图 也许有的朋友已经在开始使用"Guil".如果你是从事英文领域的SEOer,那么"Guil"搜索引擎的横空出世,对我们来说是个好消息!喜 ...

  7. 前员工推出新搜索引擎Cuil挑战Google

    据 纽约时报的报道,几位前Google员工共同创建的全新搜索引擎C uil(读音为Cool)已经上线. 关于Cuil媒体比较关注的是两点: 1 . 它自称的搜索索引量很大,达到 1200亿网页以上. ...

  8. Wolfram Alpha:下一个Cuil还是下一个Google?

    Wolfram Alpha,又一款把矛头指向Google的"重量级"搜索引擎.还未正式发布,Alpha即收到了来自媒体的众多赞誉,它是"Google终结者",& ...

  9. 《浪潮之巅》 18 挑战者 Google公司

    Google公司的成长之迅速,规模之大都是让人敬佩的,Google成为唯一一个能够和微软抗衡的公司,谷歌有很多精明之处,首先就是领导人的精明,他们能够很好地独立在华尔街的操控之下进行发展,然后就是谷歌 ...

最新文章

  1. specgram python
  2. Java NIO之通道
  3. 教你掌握经典机器学习算法背后原理,解决代码模型参数问题!
  4. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1106:年龄与疾病
  5. 修改.html 打开方式 注册表,windows 注册表修改资料打开方式
  6. 更改VS的运行主窗体
  7. 关于DP的一些解题总结
  8. 分段函数返回字符c语言,C++对cin输入字符的判断及分段函数处理方法示例
  9. 学者:比特币暴涨有合理性但仍应警惕其风险
  10. tomcat 日志catalina.out 按天自动分割 设定时任务定时清除
  11. 数据库sql 四种语言DDL DML DCL DQL 基本语法
  12. 中国版Kindle Paperwhite使用评测
  13. Shapefile文件格式介绍
  14. 是谁在觊觎娱乐圈站点?揭秘神秘黑客组织-黑界
  15. 单片机万年历阴阳历c语言,单片机阴历阳历c算法万年历.pdf
  16. 如何给微信公众号增加留言功能?
  17. Pygame 官方文档 - pygame.display
  18. 如何配置Tomcat服务器
  19. Android学习之利用Intent传递数据
  20. 计算机科技英语文章及翻译,计算机专业英语短文翻译.doc

热门文章

  1. jrvideoplayer_JRVideoPlayer-视频播放器
  2. [IE编程] IE中对网页进行截图的编程接口
  3. 增值税税控设备(计算机打印机)全额抵扣,纳税人初次购买税控设备支付的费用能否抵减增值税?...
  4. 关于360加固之后的包
  5. 性能测试的需求有哪些指标?
  6. 预约Oracle OCP认证考试的保姆式流程
  7. Bert/Transformer模型压缩与优化加速
  8. TOJ 3271 Deque Sort
  9. win7 连不上其他计算机,win7电脑路由器连不上的处理操作过程
  10. 微雪树莓派PICO笔记——6. I2C(集成电路总线)