在之前的文章中Python实现“维基百科六度分隔理论“之基础爬虫,我们实现了在一个网站上随机地从一个链接到另一个链接,但是,如果我们需要系统地把整个网站按目录分类,或者要搜索网站上的每一个页面,我们该怎么办?我们需要采集整个网站,但是那是一种非常耗费内存资源的过程,尤其是处理大型网站时,比较合适的工具就是用一个数据库来存储采集的资源,之前也说过。下面来说一下怎么做。
网站地图sitemap

网站地图,又称站点地图,它就是一个页面,上面放置了网站上需要搜索引擎抓取的所有页面的链接(注:不是所有页面,一般来说是所有文章链接。大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。搜索引擎蜘蛛非常喜欢网站地图。
对于SEO,网站地图的好处:
1.为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看;
2.为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面;
3.作为一种潜在的着陆页面,可以为搜索流量进行优化;
4.如果访问者试图访问网站所在域内并不存在的URL,那么这个访问者就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。
数据采集
采集网站数据并不难,但是需要爬虫有足够的深度。我们创建一个爬虫,递归地遍历每个网站,只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始(一般是网站主页),然后搜索页面上的所有链接,形成列表,再去采集到的这些链接页面,继续采集每个页面的链接形成新的列表,重复执行。
很明显,这是一个复杂度增长很快的过程。加入每个页面有10个链接,网站上有5个页面深度,如果采集整个网站,一共得采集的网页数量是105,即100000个页面。

如何用最简单的Python爬虫采集整个网站相关推荐

  1. python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程

    原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程 这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...

  2. python爬虫实例-记录一次简单的Python爬虫实例

    本次的这篇文章主要是和大家分享了一篇关于记录一次简单的Python爬虫实例 ,有需要的小伙伴可以看一下. 主要流程分为: 爬取.整理.存储 1.其中用到几个包,包括 requests 用于向网站发送请 ...

  3. Python爬虫入门教程:超级简单的Python爬虫教程

    这是一篇详细介绍 [Python]爬虫入门的教程,从实战出发,适合初学者.读者只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫. 这篇 Python 爬 ...

  4. 一个简单的python爬虫程序

    #简介 在每次论文被拒再投的过程中,都需要查询最近的与自己论文相关的会议列表.每到这种情况,我一遍采用的是遍历会伴www.myhuiban.com的网站,然后逐个查看会议,关注的有三点,投稿日期,cc ...

  5. 利用python爬取知乎评论_一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: 1 # -*- c ...

  6. Python爬虫采集抓取:Python3.x+Fiddler 采集抓取 APP 数据

    随着移动互联网的市场份额逐步扩大,手机 APP 已经占据我们的生活,以往的数据分析都借助于爬虫采集爬取网页数据进行分析,但是新兴的产品有的只有 APP,并没有网页端这对于想要提取数据的我们就遇到了些问 ...

  7. Python爬虫|采集开源众包的悬赏任务,自动翻页

    前言 现在互联网,有很多网站提供一些接单外派的形式,提供给有能力的人或者团队去接单.比如说,很多人熟悉的猪八戒,程序员客栈,CODING 码市,开源众包等等平台,相信很多同学也都知道. 如果要第一时间 ...

  8. python网络爬虫-采集整个网站

    上一篇文章中,实现了在一个网站上随机地从一个链接跳掉另一个链接.但是,如果需要系统地把整个网站按目录分类,或者要搜索网站上的每一个页面,就得采集整个网站,那是一种非常耗费内存资源的过程,尤其处理大型网 ...

  9. python爬虫 下载视频网站视频

    python爬虫 下载视频网站视频 xpath解析页面源码 requests.Session() 解决 status_code 302 网页重定向 selenium 获取网页遇到 iframe 标签解 ...

最新文章

  1. AutoShape:实时形状感知的单目3D目标检测(ICCV2021)
  2. Python中通过PyPDF2实现PDF合并
  3. oc-14-对象方法调用类方法
  4. C# .net core 使用自定义的WebProxy
  5. Cs231n课堂内容记录-Lecture 5 卷积神经网络介绍
  6. C++基础教程示例详解:C++中的I/O重定向
  7. C#算法设计查找篇之05-二叉树查找
  8. 触类旁通:那些关于 TBL$OR$IDX$PART$NUM 的诡异案例和知识
  9. vivo X Fold跑分曝光:搭载骁龙8+12GB内存
  10. 应对需求变更的软件的设计——我的想法
  11. 通用crt更新不适用计算机,Office2016安装提示需要通用补丁CRT(KB2999226)
  12. 【Arduino实验14 红外遥控】
  13. TortoiseSVN 无论什么操作,都报同一个错误:请求的操作需要提升
  14. 12 WebGL移动、旋转和缩放中的平移
  15. zkServer.cmd报错invalid config exiting abnormally解决
  16. TVS管和稳压管两者比较
  17. 发动机太热 请不要用冷水降温
  18. 决策树6:分类与回归树CART
  19. 高手入门STM32总结+学习步骤
  20. android 三种常用的加密方式

热门文章

  1. CSDN问答新增打赏及@用户功能【8月9日】
  2. 浙江省电气工程师职称评审申报条件
  3. oracle clob导入mysql_Oracle数据库中包含CLOB字段表的导出和导入
  4. 第三周Coreidraw总结
  5. T04 Grading
  6. Mathematical Background: Foundations of Infinitesimal Calculus second edition
  7. 继续读研大学借的助学贷款怎么办
  8. Beanutils造成dubbo反序列化失败?
  9. 【负荷预测】基于灰色理论负荷预测的应用研究(Matlab代码实现)
  10. opengl---2.图形渲染的过程