摘  要

本课题的主要目的是设计面向定向网站的网络爬虫程序,同时需要满足不同的性能要求,详细涉及到定向网络爬虫的各个细节与应用环节。

搜索引擎作为一个辅助人们检索信息的工具。但是,这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题,一个灵活的爬虫有着无可替代的重要意义。

网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。

关键词:网络爬虫,定向爬取,多线程,Mongodb

ABSTRACT
The main purpose of this project is to design subject-oriented web crawler process, which   require to meet different performance and related to the various details of the targeted web crawler and application in detail.

Search engine is a tool to help people retrieve information. However, these general search engines also have some limitations. Users in different fields and backgrounds tend to have different purposes and needs, and the results returned by general search engines contain a large number of web pages that users don't care about. In order to solve this problem, it is of great significance for a flexible crawler.

Web crawler application of intelligent self construction technology, with the different themes of the site, you can automatically analyze the structure of URL, and cancel duplicate part. Web crawler use multi-threading technology, so that the crawler has a more powerful ability to grab. Setting connection and reading time of the network crawler is to avoid unlimited waiting. In order to adapt to the different needs, the web crawler can base on the preset themes to realize to filch the specific topics. What’s more, we should study the principle of the web crawler ,realize the relevant functions of reptiles, save the stolen data to the database after cleaning and in late achieve the visual display.

Keywords:Web crawler,Directional climb,multi-threading,mongodb

目  录

第一章  概述 1

1.1 课题背景 1

1.2 网络爬虫的历史和分类 1

第二章    文献综述 7

2.1 网络爬虫理论概述 7

2.2 网络爬虫框架介绍 8

第三章    研究方案 16

3.1 网络爬虫的模型分析 16

3.2 URL构造策略 19

3.3 数据提取与存储分析 19

第四章    网络爬虫模型的设计和实现 21

4.1 网络爬虫总体设计 21

4.2 网络爬虫具体设计 21

第五章  实验与结果分析 39

5.2 结果分析 42

参考文献 36

致谢 37

附录1 38

附录2 47

1)爬虫代码文件构成如图:

基于Python网络爬虫的设计与实现毕业设计相关推荐

  1. 基于python网络爬虫的设计和思考

    1.爬虫技术 网 络 爬 虫, 又 称 网 页 蜘 蛛(webspider),是一个功能强大的能够自动提取网页信息的程序,它模仿浏览器访问网络资源,从而获取用户需要的信息,它可以为搜索引擎从万维网上下 ...

  2. python网络爬虫课程设计题目_山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》...

    山东建筑大学计算机网络课程设计<基于Python的网络爬虫设计> 山东建筑大学 课 程 设 计 成 果 报 告 题 目: 基于Python的网络爬虫设计 课 程: 计算机网络A 院 (部) ...

  3. 基于python网络爬虫的个性化音乐播放器

    前言 当前很多人在闲暇时喜欢听音乐,那么基于这种现象,我也是肝了几个小时完成了基于python的个性化音乐播放器,现在分享给你们. 开发组件 python3.5 以上版本就行 tkinter (pyt ...

  4. 基于python网络爬虫天气_Python网络爬虫之中国天气网

    大家好,今天我们来讲讲怎么用python对中国天气网进行爬取并且对爬取到的数据进行数据可视化的显示 这就是我们今天要爬取的内容,将中国天气网上的华北.东北等地区七天内的天气数据进行一个爬取,并且对最高 ...

  5. python爬虫网络安全的_基于Python网络爬虫实战 - 安全牛课堂 - 领先的信息安全在线教育平台...

    { "i18nChapterName": "章", "i18nUnitName": "节", "i18nLes ...

  6. python爬虫教程视频下载-利用Python网络爬虫获取电影天堂视频下载链接【详细教程】...

    相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来. [二.项目准备] ...

  7. 如何利用python在一个wen'dang'li_如何利用Python网络爬虫给自己跟朋友来一份穷游攻略!走到哪里穷到哪里的哦!...

    [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台,以及智能的旅行规划解决方案,同时提供签证.保险.机票.酒店预订.租车等在线增值服务.穷游"鼓励和帮助中国旅 ...

  8. python网络爬虫_一篇文章教会你利用Python网络爬虫获取穷游攻略

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 穷游网提供原创实用的出境游旅行指南.攻略,旅行社区和问答交流平台, ...

  9. python3爬虫有道翻译_一篇文章教会你利用Python网络爬虫获取有道翻译手机版的翻译接口...

    [一.项目背景] 有道翻译作为国内最大的翻译软件之一,用户量巨大.在学习时遇到不会的英语词汇,会第一时间找翻译,有道翻译就是首选.今天教大家如何去获取有道翻译手机版的翻译接口. ![image](ht ...

  10. 实战python网络爬虫豆瓣_三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)...

    一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...

最新文章

  1. AndroidManifest.xml文件剖析
  2. MyEclipse10安装SVN插件
  3. html语言技术基础,第2章Web编程基础HTML语言技术方案.ppt
  4. 模板参数仅作为函数的返回值
  5. [转载] 【Java】基础06:HelloWorld入门程序
  6. Qt文档阅读笔记-Qt对象模型及deleteLater()杂记
  7. PyTorch 深度学习:37分钟快速入门——FCN 做语义分割
  8. unity如何得到所有子对象_Unity用户手册-Mesh合批
  9. QString字符串中双引号的梗
  10. 传输层协议(12):拥塞控制(1)
  11. Android ADT 无法在线安装,离线下载ADT压缩包方法。SDK Manager无法更新
  12. bochs运行xp_bochs xp 镜像下载|bochs xp精简版下载_ - 极光下载站
  13. 文华财经彩波均线主图指标公式(指标公式源码)破解加密
  14. 制图中比例尺的一些问题
  15. 阿尔伯塔计算机硕士要求,阿尔伯塔大学计算机硕士专业介绍
  16. 不小心删除了华为手机备忘录里的内容如何恢复?
  17. process has died
  18. 天才少年稚晖君超酷“硬汉”项目登榜|GitHub近期热门项目盘点
  19. cmd批量创建文件和文件夹
  20. 一个问题来对比文心一言和chatgpt

热门文章

  1. kindeditor java上传_KindEditor的使用和上传图片的后台处理
  2. 电信光猫 远程服务器,如何禁止电信远程控制服务器修改光猫配置信息
  3. mapbox绘制航线图
  4. window.dialogArguments 使用问题
  5. 黑客通常可以分为以下8种类型
  6. 用matlab如何求导,matlab如何求导 matlab求导 matlab如何求导
  7. win10电脑性能测试软件,win10系统测试计算机性能的图文方法
  8. html wap加载优化,移动版Wap网页针对百度进行SEO优化的一些要点总结
  9. Unity 防止数组索引越界的几种方法
  10. Lomboz 3.3