技术:Java、JSP
摘要:
搜索引擎作为一种信息检索技术,在当今互联网时代有巨大的应用,与此同时,也有较为广阔的发展前景,并且已经成为互联网行业新的经济增长点。随着社会的飞速发展,互联网上信息容量急剧增加,人们对搜索引擎的依赖愈发强烈。网络爬虫是搜索引擎的关键技术之一,同时也是快速获取网络上可用资源的有效工具。为了能够对网络爬虫更深入的了解并熟练合理的应用于各种的应用和系统中,经过对网络爬虫的框架、基本工作流程、抓取策略的分析和了解,使用Java与MySQL数据库实现一个网络爬虫,简单爬取搜狐新闻。
关键词:搜索引擎;网络爬虫;抓取策略;Java;MySQL;

目录:
1  绪论    1
1.1搜索引擎的发展介绍    1
1.2网络爬虫技术研究现状    1
1.3网络爬虫的相关技术    3
1.4论文结构    4
2  相关技术分析    5
2.1抓取页面    5
2.1.1深入理解URL    5
2.1.2通过指定的URL抓取网页内容    6
2.2宽度优先爬虫和带偏好的爬虫    8
2.2.1图的广度优先遍历    9
2.2.2广度优先遍历互联网    10
2.2.3带偏好的爬虫    13
2.3设计爬虫队列    14
2.3.1Berkeley DB数据库    15
2.3.2布隆过滤器    16
2.4设计爬虫架构    16
2.5分布式爬虫的架构    16
2.6限定爬虫和主题爬虫    18
2.6.1主题爬虫    18
2.6.2限定爬虫    19
3  网络爬虫系统的设计与实现    21
3.1HtmlParser的了解    21
3.2 NodeList对象    22
3.2.1单个标签本身过滤的情况    22
3.2.2单个标签同级过滤的情况    23
3.2.3单个标签上级过滤的情况    23
3.2.4单个标签下级过滤的情况    23
3.2.5两个标签组合的情况    23
3.2.6根据标签属性或标签属性和标签属性值过滤    24
3.2.7标签类过滤的情况    25
3.3网络爬虫系统的设计    25
3.4网络爬虫系统的具体实现    25
3.5主要代码展示    27
3.6数据库的设计    31
4  功能测试    32
4.1实验环境设置    32
4.2系统测试    32
5  总结与展望    35
5.1研究工作的总结    35
5.2下一步工作的展望    36
参考文献    37
致  谢    38
附录:    39
外文原文:    39
中文翻译:    44

论文字数:23591
包含资料:

 

截图:

 

网络爬虫的设计与实现相关推荐

  1. python网络爬虫的流程图_基于Python的网络爬虫的设计与实现

    龙源期刊网 http://www.qikan.com.cn 基于 Python 的网络爬虫的设计与实现 作者:高祖彦 来源:<商情> 2020 年第 33 期 [摘要]一个爬虫从网上爬取数 ...

  2. php计算机专业毕业设计题目,计算机专业毕业论文-基于PHP的网络爬虫的设计与实现.doc...

    毕 业 设 计 题目:网络爬虫的设计与实现 I 摘要 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页, 是搜索引擎的重要组成.通过网络爬虫不仅能够为搜索引擎采集网络信息,而 且可以定 ...

  3. java网络爬虫论文_毕业设计(论文)-基于JAVA的网络爬虫的设计与实现.doc

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp计算机&nbsp>&nbspJava 毕业设计(论文)-基于JAVA的网络爬虫的设计与实现. ...

  4. python网络爬虫课程设计题目_山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》...

    山东建筑大学计算机网络课程设计<基于Python的网络爬虫设计> 山东建筑大学 课 程 设 计 成 果 报 告 题 目: 基于Python的网络爬虫设计 课 程: 计算机网络A 院 (部) ...

  5. 基于python网络爬虫的设计和思考

    1.爬虫技术 网 络 爬 虫, 又 称 网 页 蜘 蛛(webspider),是一个功能强大的能够自动提取网页信息的程序,它模仿浏览器访问网络资源,从而获取用户需要的信息,它可以为搜索引擎从万维网上下 ...

  6. 网络爬虫相关程序学习(包含jar包等)---各大网站网络爬虫

    以下内容,都是本人近一年写过的东西,也算花了不少时间.所以,源码并不是免费的,但很便宜.有需要的请邮箱联系:1563178220@qq.com.另外,可以辅助编写其他网络爬虫工程. 网络爬虫基础学习 ...

  7. 人工智能(网络爬虫)

    8.2.1 网络爬虫 1.概念与原理 网络爬虫(又称为网络蜘蛛.网络机器人,在FOAF社区中更经常称为网页追逐者)是按照一定的规则自动抓取万维网信息的程序或脚本.另外一些不经常使用的名字还有写蚁.自动 ...

  8. 主题网络爬虫研究综述

    0 引言 Internet 的飞速发展加快了网络信息量增长.在互联网这个庞大的资源库中, 网页搜索引擎是人们获取外界信息的主要工具.为了提 高检索质量,达到更好的检索体验,通用搜索引擎应运而生.通用搜 ...

  9. 基于网络爬虫的XSS漏洞检测技术

    1. 背景和意义 在早期的网站设计中,网页的存在形式都是静态的.静态的网页内容稳定,不会经常更新,但是在后期却不易维护.如果需要维护更新网页,则必须重新编辑HTML网页,因此当网站很庞大的时候,维护静 ...

最新文章

  1. ABP Zero示例项目问题总结
  2. C#异步编程模式IAsyncResult概述
  3. django新建php文件,在Python的Django框架中创建语言文件
  4. 容器技术之Dockerk8s知识笔记
  5. JVM内存模型与GC回收器
  6. 医疗数据分析——过高费用的异常检测
  7. docker修改redis配置文件
  8. 可行性分析与需求分析
  9. Excel中VBA合并工作表
  10. 关于/etc/login.defs
  11. GPRS-PDP上下文激活过程
  12. js html等比例放大后生成图片 html2canvas
  13. int[]是什么类型?
  14. 感知机算法在鸢尾花数据集上的实践
  15. MOS管寄生电容是如何形成的?
  16. WC2017 Day3
  17. 11.构造方法:什么是构造方法???使用构造方法要注意哪七点???
  18. PPT中如何制作两圆交叉阴影图
  19. H5-扫描二维码及条形码
  20. AttributeError: ‘Embeddings‘ object has no attribute ‘d_model‘

热门文章

  1. Thinkpad x61 重新安装一例
  2. 面向对象-方法 习题
  3. 数字化下,机械工程师如何适应和继续发展
  4. 网站显示不了flash图片红叉问题总结
  5. 简述最优二叉树(赫夫曼树)
  6. 如何走上通往IT职业的成功之路
  7. 重温SQL行转列,性能又双叒提升了
  8. css伪类与伪元素的区别
  9. Androidstudio开发button按钮的操作以及项目开发大致过程
  10. Ubuntu终端代理工具——proxychains