1.全文检索搜索与分类目录搜索

万维网是一个大规模的、联机式的信息储藏所。那么,应当采用什么方法才能找到所需的信息呢?如果已经知道存放该信息的网点,那么只要在浏览器的地址(Location)框内键入该网点的URL和回车键,就可进入该网点。但是,若不知道要找的信息在何网点,那就要使用万维网的搜索工具。

在万维网中用来进行搜索的工具叫做搜索引擎(search engine)。搜索引擎的种类很多,但大体上可划分为两大类,即全文检索搜索引擎和分类目录搜索引擎。

全文检索搜索引擎是一种纯技术型的检索工具。它的工作原理是通过搜索软件(例如一种叫做“蜘蛛”或“网络机器人”的Spider程序)到因特网上的各网站收集信息,找到一个网站后可以从这个网站再链接到另一个网站,像蜘蛛爬行一样。然后按照一定的规则建立一个很大的在线数据库供用户查询。用户在查询时只要输入关键词,就从己经建立的索引数据库上进行查询(并不是实时地在因特网上检索到的信息)。因此很可能有些查到的信息己经是过时的。建立这种索引数据库的网站必须定期对已建立的数据库进行更新维护。现在最出名的全文检索搜索引擎就是Google(谷歌)网站(www.google.com),它搜集的网页数量超过80亿个,图片超过10亿个,在整个搜索引擎市场中占有的份额超过50%。我们接着将介绍Google搜索技术的特点。在中文搜索引擎中,最出名的是百度网站(www.baidu.com) 。

分类目录搜索引擎并不采集网站的任何信息,而是利用各网站向搜索引擎提交的网站信息时填写的关键词和网站描述等信息,经过人工审核编辑后,如果认为符合网站登录的条件,则输入到分类目录的数据库中,供网上用户查询。因此,分类目录搜索也叫做分类网站搜索。分类目录的好处就是用户可根据网站设计好的目录有针对性地逐级查询所需要的信息,查询时不需要使用关键词,只需要按照分类(先找大类,再找下面的小类),因而查询的准确性较好。但分类目录查询的结果并不是具体的页面,而是被收录网站主页的URL地址,因而所得到的内容就比较有限。相比之下,全文检索可以检索出大量的信息(一次检索的结果是几百万条,甚至是千万条以上),但缺点是查询结果不够准确,往往是罗列出了海量的信息(如上千万个页面),使用户无法迅速找到所需的信息。在分类目录搜索引擎中最著名的就是雅虎(www.yahoo.com)。国内著名的分类搜索引擎有雅虎中国(cn.yahoo.com)、新浪(www.sina.com)、搜狐(www.sohu.com)、网易(www.163.com)等。

从用户的角度看,使用这两种不同的搜索引擎都能够实现自己查询信息的目的。但用户得到的信息的形式并不一样。全文检索搜索引擎往往可直接检索到相关内容的网页,但分类目录搜索引擎一般只能检索到相关信息的网址。为了使用户能够更加方便地搜索到有用信息,目前许多网站往往同时具有全文检索搜索和分类目录搜索的功能。在因特网上搜索信息需要经验的积累,要多实践才能掌握从因特网获取信息的技巧。

值得注意的是,目前出现了垂直搜索引擎(Vertical Search Engine),它针对某一特点领域、特定人群或某一特点需求提供搜索服务。垂直搜索也是提供关键字来进行搜索的,但被放到了一个行业知识的上下文中,返回的结果更倾向于信息、消息、条目等。例如,对买房的人讲,他希望查找的是房子的具体供求信息(如面积、地点、价格等),而不是有关房子供求的一般性的论文或新闻、政策等。目前热门的垂直搜索行业有:购物、旅游、汽车、求职、房产、交友等行业。还有一种元搜索引擎(Meta Search Engine),它把用户提交的检索请求发送到多个独立的搜索引擎上去搜索,并把检索结果集中统一处理,以统一的格式提供给用户,因此是搜索引擎之上的搜索引擎。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性化搜索功能的设置和用户检索界面的友好性上。元搜索引擎的查全率和查准率都比较高。

2. Google搜索技术的特点

Google的搜索引擎性能优良,因为它使用了先进的硬件和软件。以往的大多数的搜索引擎是使用少量大型服务器。在访问高峰期,搜索的速度就会明显减慢。Google则利用在因特网上相互链接的PC来快速查找每个搜索的答案,并且成功地缩短了查找的相应时间。Google的搜索软件可同时进行许多运算,它的核心技术就是PageRank,译为网页排名。    PageRank对搜索出来的结果按重要性进行排序,这是Google的两个创始人Larry Page和Sergey Brin共同开发出来的「W-GOGGLE]。由于用户在有限的时间内,不可能阅读全部的搜索结果(因为数量往往非常大),而通常仅仅是查阅一下前几个(或前几十个)项目。因此用户希望检索结果能够按重要性来排序。但怎样确定某个页面的重要性呢?传统的搜索引擎往往是检查关键字在网页上出现的频率。PageRank技术则把整个互联网当作了一个整体对待,检查整个网络链接的结构,并确定哪些网页重要性最高。更具体些,就是如果有很多网站上的链接都指向页面A,那么页面A就比较重要。PageRank对链接的数目进行加权统计一。对来自重要网站的链接,其权重也较大。统计链接数目的问题是一个二维矩阵相乘的问题,从理沦上讲,这种二维矩阵的元素数是网页数目的平方。对于1亿个网页,这个矩阵就有1亿亿个元素。这样大的矩阵相乘,计算量是非常大的。Larry Page和Sergey Brin两人利用稀疏矩阵计算的技巧,大大的简化了计算量。他们用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据此初始值,算出各个网页的第一次迭代排名,再根据第一次迭代排名算出第二次的排名。他们从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到排名的真实值。这种算法是完全没有任何人工干预,厂商不可能用金钱购买网页的排名。Google还要进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google就把最相关、最可靠的搜索结果放在首位。

参考资料:《计算机网络》 第六版 谢希仁

万维网的信息检索系统【计算机网络】相关推荐

  1. 972信息检索 | 第六章 专业性书目信息检索系统

    文章目录 第六章 | 专业性书目信息检索系统 SciFinder SciFinder的检索模式 剑桥科学文摘(CSA) CSA的检索 生物学文摘(BA) BP的检索 工程索引(Ei Compendex ...

  2. python信息检索系统_GitHub - Uyouii/SearchingSystem: python实现的基于倒排索引和向量空间模型实现的信息检索系统...

    信息检索系统 利用倒排索引和向量空间模型实现的信息检索系统. 完成工作: 带位置信息的倒排索引 向量空间模型 TOP K查询 BOOL查询 短语查询 拼写矫正 同义词查询 拼写矫正(短语) 运行 环境 ...

  3. 基于Python实现的英文文本信息检索系统

    目录 1.用户交互的实现: 3 3.查询表的建立 6 3.1 预处理 6 3.2 倒排表的构建 8 3.3 倒排表的压缩 9 3.4 构建轮排索引 10 4.布尔查询 11 5.TF-IDF 值的计算 ...

  4. 基于内容的视频信息检索系统

    基于内容的视频信息检索系统 汪志强 (江西财经大学信息管理学院 09信息管理与信息系统2班) 摘 要: 本文从基于内容的视频信息检索技术的发展历史出发,对基于内容的视频检索系统的技术要点及主要的功能模 ...

  5. 972信息检索 | 第五章 国外综合性信息检索系统

    文章目录 第五章 | 国外综合性信息检索系统 Web of Science(WOS) WOS数据库资源 WOS的检索 WOS的检索方式 Journal Citation Report InCites ...

  6. 972信息检索 | 第四章 国内重要的综合性信息检索系统

    文章目录 第四章 | 国内重要的综合性信息检索系统 中国知网(CNKI) 数据库资源 检索方式 维普咨询网 数据库资源 检索方式 中国高等教育文献保障系统(CALIS) 国家科技图书文献中心(NSTL ...

  7. 信息检索 | 常见专类信息检索系统一览

    文章目录 专类信息检索系统 专利数据库检索系统 商标检索系统 学位论文检索系统 科技报告 会议 专类信息检索系统 专利数据库检索系统 (一)商业性专利数据库 数据库厂商 数据库名称 科睿唯安 德温特专 ...

  8. 电网运行信息检索系统的设计与实现

    摘要 电网运行方式管理直接决定了电网企业的经济效益和安全效益,随着我国经济和社会的高速发展,我国电网的覆盖面积.网络节点和电压等级也高速增长.但是,我国当前电网运行方式管理工作水平还相对落后,制约了电 ...

  9. 计算机信息检索系统中常用的检索技术,在计算机信息检索系统中,常用的检索技术主要有哪些...

    满意答案 蒙奇奇.011703 推荐于 2018.05.21 采纳率:47%    等级:12 已帮助:8418人 在计算机信息检索系统中,常用的检索技术主要有以下六种: 1. 布尔逻辑检索 利用布尔 ...

最新文章

  1. (2)iOS用UICollectionView实现Gallery效果
  2. 这个博主的《u-boot》总结的很好呢
  3. 北京化工大学通信工程linux,北京化工大学通信工程专业解读
  4. java从端口接收数据_java - Java中通过串行端口接收数据的效率更高 - 堆栈内存溢出...
  5. 凤凰系统运行linux,把凤凰系统装进U盘里,打造PC上的可移动android系统
  6. 《Java就业培训教程》_张孝祥_书内源码_04
  7. 程序员教你十分钟做出炫酷桌面
  8. 深度解密HTTP通信细节
  9. Linux查 ssh端口号
  10. zune自搭虚拟服务器离线升级,Zune 30g 购买/使用 个人经验贴,希望可以帮到有需要的烧友~...
  11. U盘防病毒从七方面做起
  12. libreelec投屏_我的NAS+HTPC折腾之旅 篇八:LibreELEC部署媒体中心服务器emby和jellyfin篇...
  13. Java——》获取map中最小key,最小value
  14. 如何准备蓝桥杯以及刷题
  15. 做独立站要做私域营销,做亚马逊更要做私域营销,Why?
  16. HTML和Css基础知识点笔记
  17. 微信小程序--引用第三方组件
  18. 人工智能导论--浙江工业大学--王万良
  19. vba传值调用_VBA传递参数步骤
  20. 九问 Gopher China 2020 讲师之毛康力:从 Go 1.0 使用至今的鲜肉老司机

热门文章

  1. Ubuntu Linux GUI desktop
  2. 解决Chrome浏览器翻译无法使用的问题
  3. H.264与H.265视频压缩编码参考码率
  4. Alfred常见使用
  5. html 卸载事件不执行,javascript – 如何在contenteditable中删除HTML元素时触发事件
  6. 电路分析定理及戴维南定理
  7. Flink程序加载数据源(3)自定义数据源(2)从Mysql 加载数据源
  8. 服务器部署Nginx和Vue项目
  9. 巨人内部改革新政解读:源于内忧外患(好的激励方式)
  10. Android各个版本名称与版本号对照表