网络搜索引擎与智能代理技术
互联网在全球范围内的迅速发展与成熟,促使社会各领域信息飞速膨胀,为人们查找、获取有用信息提供了丰富的信息源,但也给信息的准确定位提出了挑战。提供网上资源的检索是网络信息服务的重要内容之一,加之现代人也对信息把握的正确性和全面性提出了越来越高的要求,因此,当务之急是开发性能优越的网络信息检索工具。
1993年,第一批搜索引擎诞生后,发展至今已经逐渐走向成熟,伴随着计算机智能化研究的不断发展,具有适应性和学习性特征的智能代理技术也正从试验阶段过渡到实际应用。目前,搜索引擎(search engine)与智能代理(intelligent agent)已经成为网络信息搜索的关键技术与核心思想。
1 搜索引擎技术的发展现状
1.1 搜索引擎技术
目前,网络信息检索技术最主要的是搜索引擎技术,搜索引擎实际上是一个专用的WWW服务器,也可以说是因特网上的一类网站,这类网站与一般的网站不同,其主要工作是收集网络上成千上万的网站和网页信息,组成庞大的索引数据库。使用优秀的搜索引擎可以达到事半功倍的效果。目前网络上大约有3000多种搜索引擎,我们较为熟悉的提供中文搜索引擎的站点有sina、sohu、yahoo、netease和中文Excite等。
一般来说,搜索引擎主要采取两种方式实现对网络信息资源的检索,一是采用分类主题目录形式,将网站进行树状的分类,所链接的网站必须至少归属于其中一个类别,形成类似图书馆目录一样的分类主题目录,用户通过逐级浏览这些目录来找寻自己需要的内容,采用这种检索方式的搜索引擎有yahoo、sohu等,由于使用了专家进行归纳和分类,为信息导航带来了极大的方便,但这种方式在分类和目录整理中需要大量的人力;二是使用关键词匹配方式,其处理对象主要是文本,它能够对大量文档建立由字(词)到文档的索引库,在此基础上,用户使用关键词对网页进行搜索时,系统将会显示含有该检索用词的所有网站、网页和新闻等匹配信息。关键词检索能解决对网页细节的检索问题,只要用户输入关键词,系统通过蜘蛛机器人自动在选定的范围内进行检索,并将所检索到的信息自动标引导入索引数据库中,匹配所检范围中的网页,就能得到检索结果。
1.2 搜索引擎使用的信息检索技术及其不足
目前搜索引擎使用的信息检索技术主要有:Robot技术、索引技术、翻译技术、转换技术、过滤技术、数据库技术、结果处理技术等。搜索引擎的最大优点是:信息的覆盖面较大,信息新颖,而且对搜索结果的相关性排列上,搜索引擎将其认为相关性高的检索结果排列在前。但由于搜索引擎使用的信息检索技术智能水平的限制,以及对自然语言理解的制约,对网络信息的检索存在许多不足之处。主要有如下几方面。
(1)现在的搜索引擎主要通过Robot将网页的全部或部分内容下载到自建索引库中,由于下载的页面许多是无用或暂时信息,既影响检索速度,也增加了用户检索负担。
(2)由于搜索引擎一般都采用关键词检索方式,但许多情况下,用户很难简单地用关键词或关键词之间的组配来准确地表达真正需要的信息内容,表达困难导致检索困难。
(3)每个引擎的覆盖面都相当有限。经考察研究发现,没有一个搜索引擎的索引量超过整个网页的1/6。
(4)搜索的结果不精确。搜索结果的精确性是由查询词与网页的相关性来确定的,常常输入一个单一的查询词能返回数万篇结果,或者零篇结果。
2 智能代理技术
2.1 智能代理
智能代理又称智能体,是人工智能研究的新成果,它是在用户没有明确具体要求的情况下,根据用户需要,代替用户进行各种复杂的工作,如信息查询、筛选及管理,并能推测用户的意图,自主制定、调整和执行工作计划。具有智能性,是可进行高级、复杂的自动处理的代理软件。智能代理可应用于广泛的领域,是人工智能领域近年来研究的一个热点,应用于信息检索领域之后,成为开发智能化、个性化信息检索的重要技术之一。
2.2 智能代理的特点
①智能性。具有丰富的知识和一定的推理能力,能揣测用户的意图,并能处理复杂的难度高的任务,对用户的需求能分析地接收,自动拒绝一些不合理或可能给用户带来危害的要求,而且具有从经验中不断学习的能力,适当地进行自我调节,提高处理问题能力。
②代理性。在功能上是用户的某种代理,它可以代替用户完成一些任务,并将结果主动反馈给用户。
③移动性。可以在网络上漫游到任何目标主机,并在目标主机上进行信息处理操作,最后将结果集中返回到起点,而且能随计算机用户的移动而移动。
④主动性。能根据用户的需求和环境的变化,主动向用户报告并提供服务。
⑤协作性。能通过各种通信协议和其他智能体进行信息交流,并可以相互协调共同完成复杂的任务。
3 搜索引擎技术与智能代理技术的结合
搜索引擎与智能代理技术有着各自的优势与不足,把这两种技术结合起来,将为开发新一代功能更强大的网上信息搜索系统提供广阔的天地。智能代理主要集成客户端特殊的环境,配合用户兴趣完成搜索。它对用户信息需求、偏好进行甄别、归纳、总结,分析用户的兴趣爱好,并借助学习好的规则,自动、独立地代理用户查找其感兴趣的信息。将搜索引擎与智能代理技术结合起来是建立新的检索模式的必然趋势。
3.1 服务器端的个性化服务的引入
在服务器端吸收智能代理技术的思想,引入个性化和人性化服务的思想。引入用户反馈机制来完善检索机制、提高检索命中率,同时也可以提供面向个人的特殊检索服务。这种方式可以通过帐号制形式来实现,即为每一位用户提供一个帐号(类似于个人邮箱),以记录该用户查询踪迹,从而在用户再次登录时结合以往的用户检索记录来配合提供相关的检索服务。这种模式体现了个性化服务的特色,对于用户一贯查询的信息就可以直接从用户的信息库中提取,避免了重复查询。另外,通过对用户的反馈意见进行跟踪,获取用户对结果的评价,据此提高检索质量。检索入口的自然语言化发展将有助于优化检索界面,提高界面的人性化。
3.2 客户端智能代理技术的拓展
以智能搜索代理技术为主,结合搜索引擎“面向主题”的检索模式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进行沟通,交换信息,从而使更多的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。这种模式充分利用了智能搜索代理的流动性、交互性、智能性特点,同时又吸取了搜索引擎的主题相关的思想,为高质量的信息个性化检索服务提供了新的模式。
搜索引擎技术与智能代理技术在网络信息检索上的结合发展潜力是巨大的,要真正实现两者结合的各项优势,还有待在机器学习、相关度分析等方面进行逐渐的研究和改进。在知识经济时代,人们越来越需要个性化信息的提供,作为网络信息检索的前沿技术,智能代理技术将受广大用户的青睐,相信它的发展前景是非常广阔的。
网络搜索引擎与智能代理技术相关推荐
- 图解|通用搜索引擎背后的技术点
1. 写在前面 今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点. 鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为. 通过本文你将对通用搜索引 ...
- php关键词分词搜索 最多匹配的排在最前面_图解 | 通用搜索引擎背后的技术点...
来源 | 后端技术指南针头图 | 图虫 写在前面 今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点. 鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲 ...
- 学习笔记之搜索引擎—原理、技术与系统
搜索引擎 - 原理.技术与系统 Search Engine: Principle, Technology and Systems 李晓明 闫宏飞 王继民 著 by Li Xiaoming, Yan ...
- 搜索引擎的爬虫技术研究
前言 下面文章为搜索引擎的的大概介绍,搜索引擎的开发流程请移步此处:搜索引擎的开发流程 项目展示:海豚全网搜索引擎 一.爬虫系统的诞生 通用搜索引擎的处理对象是互联网网页,目前互联网网页的数量已达百亿 ...
- 一个大尺度超文本网络搜索引擎的剖析
[原题]一个大尺度超文本网络搜索引擎的剖析 [译题]The anatomy of a large-scale hypertextual Web search engine [作者]Sergey Bri ...
- 图解 | 通用搜索引擎背后的技术点
来源 | 后端技术指南针 头图 | 图虫 写在前面 今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点. 鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们 ...
- 智能代理技术(Agent)
智能代理技术现在已经得到广泛的关注,这是我女朋友的毕业设计研究项目,她和我拟采用P2P技术,利用Java语言,JXTA规范,Flash+as2.0作为前台,开发网络课堂中的智能代理,尚处于开题中,所以 ...
- 国家自然科学基金委发布《网络空间大搜索技术白皮书》
终于拿到了<网络空间大搜索技术白皮书>的纸书和电子版.这份<白皮书>在国家自然科学基金委的指导下,多位院士主持参与,由北京邮电大学.国防科技大学.复旦大学.中科院计算所.中国电 ...
- Google的开始--剖析大规模超文本网络搜索引擎
转载自:[url]http://www.yeeyan.com/articles/view/thunder/364[/url] 原作者: Sergey Brin and Lawrence Page译者: ...
最新文章
- SQL SERVER占用服务器内存过高的解决方案
- 捉虫记 C++转java Java中equals和==的区别
- svn 部署问题总结
- 关于Eclipse中复制粘贴一个项目后的操作
- VS2010程序打包操作(超详细的)转
- 区块链上智能合约的讲解
- CSS3的线性渐变(linear-gradient)
- PHP 对象 多态性
- socket 编程入门教程(五)UDP原理:4、“有连接”的UDP
- 【笔试/面试】排列组合与概率计算(二)
- HDFS Archival Storage
- 洛谷P3642 [APIO2016]烟火表演
- K3wise数据字典及常用表及视图
- python-微信自动发送信息
- 破解电信光猫华为HG8120C
- Unity之A星算法
- IT十八掌徐培成第一天笔记
- unity 使物体跟随路径点自动移动位置 插值旋转
- Let's encrypt 通配域名(二级, 三级)
- Quartz集群配置报错 This scheduler instance (XXXX) is still active but was recovered by another instance...
热门文章
- 【1237. 找出给定方程的正整数解】
- oracle如何查rownum,Oracle中分段查询rownum
- RBAC权限管理的一点小改进
- Tensorflow2.0 之深度残差收缩网络 (DRSN)
- android配置vlc_VLC-Android使用总结
- centos安装和配置masakari(stein版本)
- 华里士公式的推导及其推广
- 华中与北航计算机,华中科技大和北航哪个好
- 运行RN项目报错:Android SDK提示Versions found: N/A
- 正运动三轴运动控制卡ECI3320控制汇川EtherCat伺服2