搜索引擎的爬虫最好解决,效果最明显,在站长平台进行设置就可以了;链接分析的爬虫通常会遵守robots.txt协议;内容采集的爬虫最无耻,最难解决

图414-1:加载中

网页打开缓慢,偶尔还会出现502错误,毫无疑问服务器的压力太大了,无法及时有效的返回用户的请求,在排除不是服务器配置不足的可能性外,可能就是短时间内访问量大量攀升。可能性当然是很多的了,比如DDOS攻击就是网络攻击的常见手段,今天我们仅仅讨论由于爬虫大量抓取页面内容导致的服务器资源被大量占用,下面分三种情况进行讨论。

搜索引擎的爬虫

图414-2:各种蜘蛛

搜索引擎的爬虫都是经过全网实践后优化的产品,一般不会出现因为搜索引擎的爬虫大量抓取导致服务器资源被大量占用的情况,如果确实出现了这种情况,处理起来是很简单的。首先所有的搜索引擎爬虫都是举着身份牌进出网站的,只要根据爬虫的UA标识就可以判断是不是搜索引擎的爬虫,并且从UA标识中能够判断是哪一种搜索引擎,以及搜索引擎的哪一种爬虫。如果想进一步判断的话,可以根据爬虫的IP地址进行判断,一般来说搜索引擎是会在自己的官网中将爬虫的所有IP地址写出来,告诉站长遇到这些IP的访问请求不要拒绝,使得爬虫能够顺利的抓取页面的内容。

如果经过查看确实是搜索引擎的爬虫大量的占用了服务器的资源,可以采用下面的方法方法。每一个搜索引擎都会有一个站长平台,在站长平台中验证了自己的站点后,就可以在这个平台中看到网站的各种信息,其中有一个就是抓取的频率和抓取的耗时,从抓取的频率可以知道每天搜索引擎抓取了多少次,抓取的耗时可以判断页面打开的速度,很显然如果服务器反应缓慢,抓取耗时会很长。大部分的站长平台可以设置抓取的频率,如果觉得抓取频率太高可以调低。

上面的方法是最安全、最有效、副作用最小的方法,除了这些方法外还有一些方法,副作用就很大了。比如:制作蜘蛛陷阱,让蜘蛛进入到陷阱中,上当后蜘蛛就会跳出了,合理的设置蜘蛛陷阱,不要让真实的用户也进入到陷阱中;反馈大量的重复页面,多次抓取到相同的页面,蜘蛛也就会放弃抓取了,同样这些页面是针对搜索引擎蜘蛛的,不能让真实的用户收到。

链接分析的爬虫

图414-3:蜘蛛

什么是链接分析爬虫,指的就是那些不是搜索引擎的站点,这些站点往往提供一些与网站有关的信息,为了提供这些信息,免不了需要不断的对网站的内容进行抓取,专门学习过SEO的人应该知道几个这样的网站。这些网站虽然不是搜索引擎,但是在抓取这个环节和搜索引擎是很像的,往往也是和搜索引擎的蜘蛛一样是举着身份牌进出网站的,判断这些爬虫也是很简单的,这些爬虫的UA也和搜索引擎的爬虫一样是有身份特征的,找出这些特殊的UA,在网上搜一搜就可以知道是什么网站的爬虫了。

如果你觉得某个爬虫大量占用了服务器的资源,并且你觉得自己的网站没有必要被这个爬虫抓取,那么可以在robots.txt协议中直接将这个爬虫进行禁用。一般来说,这些爬虫都还是会遵守robots.txt协议的,遇到个别不听话的爬虫可以直接将IP地址加入到服务器的黑名单,使他无法访问你的网站,返回结果永远都是404。

内容采集的爬虫

图414-4:某内容采集软件

如果遇到内容采集的爬虫那就倒了大霉了,只能说你的网站内容质量太高了,被别人盯上了,别人觉得转载几篇文章都不过瘾,要进行自动化的大量采集。内容采集的爬虫显然就是在抄袭你网站的内容,对方自己很清楚是在做坏事,因此他们的爬虫通常会伪装为真实的用户,甚至伪装为搜索引擎的爬虫,正因为有不法分子会将自己伪装为搜索引擎的蜘蛛,因此搜索引擎才会在自己的官方网站将自己蜘蛛的IP公布出来,避免被误伤。

内容采集的爬虫可以分为两种类型,下面分别进行讨论。

1、服务端型。爬虫是通过服务器的脚本完成的,通常是站长的后台专门有内容采集的功能,进行相关设置后,输入单一网址或者多个网址,就可以将网页中的内容采集出来,并且添加到自己的网站中,很显然这种方法是最简单、最高效的,所以内容采集的爬虫最多的情况就是这一种。这一种爬虫通常IP地址是固定的,只要在自己的网站中将IP封禁就可以了,虽然对方站长可以修改服务器的IP地址,但是至少可以给对方造成麻烦,麻烦多了只要不是太过执着的站长,可能也就不会再盯着你的网站不放了。

2、客户端型。在站长的个人电脑上面安装一个计算机程序,利用这个计算机程序下载别人网站的内容,然后上传到自己的网站中。个人电脑的IP地址往往是可以改变的,重启一次光猫IP地址就可以改变,所以面对这种情况处理起来就比较麻烦。一个比较冒险的做法是禁用IP地址段,因为IP地址改变后,很多时候改变的只是最后一个地址,前面的是不变的,但是这样可能会造成同一段IP的其他用户也不能访问你的网站。

一般来说,搜索引擎的爬虫和链接分析的爬虫都不太可能会大量占用服务器的资源,因为这些爬虫都是正规的,都是经过长期、大量的实践后优化的结果,他们自己也不希望被站长们封禁。最可能占用服务器大量资源的爬虫是内容采集的爬虫,他们可不关心会不会占用你的服务器资源,他们考虑的就是花费最小的精力、最短的时间抓取到最多的内容。

转载请注明:网创网 www.netcyw.cn/b414.html

蜘蛛占用服务器资源,不明爬虫大量占用服务器资源,3类爬虫3种策略相关推荐

  1. 服务器显示不明用户远程过,服务器显示不明用户远程过

    服务器显示不明用户远程过 内容精选 换一换 Windows操作系统云服务器蓝屏,如图1所示.使用了来源不明的第三方软件.CPU占用过高导致.因为误操作或者病毒引起的系统文件.注册表损坏.操作系统在蓝屏 ...

  2. 织梦mysql占用资源_解决一个 MySQL 服务器进程 CPU 占用 100%的技术笔记

    早上帮朋友一台服务器解决了Mysql cpu 占用 100%的问题.稍整理了一下: 朋友主机(Windows 2003 + IIS + PHP + MYSQL )近来 MySQL 服务进程 (mysq ...

  3. DNS服务器详解(端口占用与记录类型)

    DNS(Domain Name System,域名系统): 因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串. 通过主机名, ...

  4. 查看服务器文件夹内存,查看服务器各文件夹内存占用

    查看服务器各文件夹内存占用 内容精选 换一换 部署提供可视化.一键式部署服务,支持并行部署和流水线无缝集成,实现部署环境标准化和部署过程自动化.本节通过以下五步介绍如何使用部署服务将项目代码部署到云主 ...

  5. 服务器占用cpu启动就死机,造成服务器宕机(死机)的原因和解决方法

    原标题:造成服务器宕机(死机)的原因和解决方法 随着如今互联网信息化时代的不断发展,网络数据服务器.IDC数据存储和传输在各种网络科技面前也显得越来越重要,那么选择一款好用的服务器愈发重要.当然,不管 ...

  6. 蜘蛛,爬虫多,代码质量差下的相对供求平衡策略

    需求分析: 由于种种问题,导致蜘蛛访问和抓取量大的的时候,后台数据库高负载,影响正常的用户访问和英文平台的访问!比较推荐的做法是写robot.txt文件,但seo方面又希望对蜘蛛访问不做速度和页面方面 ...

  7. 【HCIA-cloud】【4】服务器虚拟化之存储资源管理:存储资源类型说明、存储配置模式说明【普通、精简、延迟置零】、虚拟机磁盘类型说明、FusionCompute中操作添加存储

    目录一览 说明 存储资源类型 存储虚拟化与华为云计算存储对比 FusionCompute存储资源与存储资源使用对比 FusionCompute中的存储资源类型 物理磁盘 SATA盘 SAS盘 NL-S ...

  8. 网络爬虫对对方服务器造成的压力到底有多大(汇总整理)

    一些大型的网站都会有robot.txt,这算是与爬虫者的一个协议.只要在robot.txt允许的范围内爬虫就不存在道德和法律风险,只不过实际上的 爬虫者一般都不看这个.控制采集速度.过快的采集会对网站 ...

  9. 如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间

    如何控制Yahoo! Slurp蜘蛛的抓取频度_国外博客资源站_百度空间 如何控制Yahoo! Slurp蜘蛛的抓取频度 2009年08月13日 星期四 5:56 上周末豆瓣的阿北给我电话:最近你们雅 ...

最新文章

  1. 获取可视区域高度赋值给div(解决document.body.clientHeight的返回值为0的问题)
  2. 学python需要什么基础知识-Python的学习,都需要具备哪些计算机基础知识?
  3. C# 删除指定目录下全部文件
  4. .NET程序员应该理解的几种软件保护方法 辛苦开发的程序需要建立有效的保护机制...
  5. 我都不敢信了 东芝芯片“又”将最后决定
  6. c++ 纯虚函数导出
  7. Nodejs学习笔记(六)——Mysql模块
  8. vue路由配置src/router/index.js
  9. weblogic 集群配置
  10. 登陆页面html5代码qq,HTML5QQ登录的一篇代码分享
  11. 三洋p6系列伺服电机说明书_兰州同步伺服电机维修-川其实业
  12. YOLO在服务器上训练,日志文件中不显示GFLOPs参数的问题
  13. dedecms---一个简单酷站的构建及解析
  14. Mac解决docker kubernetes一直starting
  15. 特效行者app手机版制作飞天特效视频的教程
  16. 利用DFS解决太平洋大西洋水流问题
  17. 微信点餐系统——用Enum枚举来保存商品状态
  18. RB-tree(红黑树)
  19. Java线程之setDaemon(true)方法的作用
  20. 国外赛事直播加速案例

热门文章

  1. VMware如何创建虚拟机
  2. 链路状态路由协议 OSPF
  3. php 网站日志分析,网站日志数据分析
  4. 省市二级联动/JQuary
  5. 经常坐公交的福音,精准公交小程序
  6. 浏览器抓包使用方法介绍
  7. 【设计模式】第1章·设计模式概述
  8. 一天发十万封邮件方法_外贸企业收集了几十万的客户邮箱,怎么群发邮件?
  9. EmailCamel为外贸工控行业提供外贸开发信邮件群发解决方案!
  10. 视频处理小技巧|ffmpeg视频命令行快速旋转视频