转载于 https://www.zhihu.com/question/26018679

这个网站提供上千个 http://www.vpn.cn/ ip交换

在网络爬虫抓取信息的过程中,如果抓取频率高过了网站的设置阀值,将会被禁止访问。通常,网站的反爬虫机制都是依据IP来标识爬虫的。

于是在爬虫的开发者通常需要采取两种手段来解决这个问题:
1、放慢抓取速度,减小对于目标网站造成的压力。但是这样会减少单位时间类的抓取量。
2、第二种方法是通过设置代理IP等手段,突破反爬虫机制继续高频率抓取。但是这样需要多个稳定的代理IP。

代理IP可以搜索到免费的,但是可能不太稳定,也有收费的,但是不一定划算,也可能不是长久之计。

普通的基于ADSL拨号的解决办法

通常,在抓取过程中遇到禁止访问,可以重新进行ADSL拨号,获取新的IP,从而可以继续抓取。但是这样在多网站多线程抓取的时候,如果某一个网站的抓取被禁止了,
同时也影响到了其他网站的抓取,整体来说也会降低抓取速度。

一种可能的解决办法

同样也是基于ADSL拨号,不同的是,需要两台能够进行ADSL拨号的服务器,抓取过程中使用这两台服务器作为代理。
假设有A、B两台可以进行ADSL拨号的服务器。爬虫程序在C服务器上运行,使用A作为代理访问外网,如果在抓取过程中遇到禁止访问的情况,立即将代理切换为B,然后将A进行重新拨号。如果再遇到禁止访问就切换为A做代理,B再拨号,如此反复。如下图:

使用A为代理,B拨号:
<img data-rawheight="327" data-rawwidth="721" src="https://pic1.zhimg.com/50/9196e28cd8621a06cd0f0339f1fa765b_hd.jpg" class="origin_image zh-lightbox-thumb" width="721" data-original="https://pic1.zhimg.com/9196e28cd8621a06cd0f0339f1fa765b_r.jpg"> 使用B为代理,A拨号
<img data-rawheight="327" data-rawwidth="721" src="https://pic2.zhimg.com/50/7afaf540be23920733bc466ae3f6f651_hd.jpg" class="origin_image zh-lightbox-thumb" width="721" data-original="https://pic2.zhimg.com/7afaf540be23920733bc466ae3f6f651_r.jpg">

爬虫怎么解决封IP?相关推荐

  1. 爬虫进阶——解决封IP问题| 部署ADSL服务器获取动态IP

    1.问题背景 我们公司需要到某环保平台爬取环保信息,但平台那边先从封cookie开始,后来又封IP,目前又开始封账号..本章就讲讲封IP问题的一个解决策略--部署ADSL服务器吧. ADSL服务器是什 ...

  2. Python爬虫再也不怕封ip了

    Python 基于BS4----爬虫 文章目录 Python 基于BS4----爬虫 1.前期基础准备知识 2. 需要安装到的库 3. 爬虫步骤 4. 通用爬取页面 5. 用代理获取网页源代码 简单总 ...

  3. nginx定时封ip防爬虫

    脚本代码参考:https://blog.51cto.com/tsoagta/1710421 我们公司网站爬虫爬取频次太高,查阅资料后简单写了一个定时获取ip,然后封禁ip 的脚本. 主要思路是:读取n ...

  4. 代理ip怎么使用_爬虫如何使用代理ip解决封禁?

    爬虫如何使用代理ip解决封禁? 随着大数据时代的到来,很多做爬虫要用到代理IP,爬虫已经成了获取数据的必不可少的方式,在使用爬虫多次爬取同一网站时,经常会被网站的IP反爬虫机制给禁掉,为了解决封禁 I ...

  5. python爬虫cookie池 与ip绑定_Python爬虫防封ip的一些技巧

    在编写爬虫爬取数据的时候,因为很多网站都有反爬虫措施,所以很容易被封IP,就不能继续爬了.在爬取大数据量的数据时更是瑟瑟发抖,时刻担心着下一秒IP可能就被封了. 本文就如何解决这个问题总结出一些应对措 ...

  6. Python爬虫被封ip解决方案

    在使用 Python 程序进行网络爬虫开发时,可能因以下原因导致被封 IP 或封禁爬虫程序: 1.频繁访问网站 爬虫程序可能会在很短的时间内访问网站很多次,从而对目标网站造成较大的负担和压力,这种行为 ...

  7. 爬虫:爬游民星空图片被封IP了

    爬取下来的图片都打不开,没找到原因: 没有设置时间间隔,应该是被封ip了,网页可以看,但是点不开大图了. import requests,urllib.request from bs4 import ...

  8. 【芝麻HTTP】被封IP如何用代理IP解决?

    被封IP如何用代理IP解决?很多用户在平时使用贴吧.微博.论坛等平台时,发帖的数量会被要求,频繁后就会被封IP.出现这种情况,想继续发帖,可以用代理IP来解决. 例如百度贴吧,百度贴吧对发帖要求是很严 ...

  9. 分享一个抓取网易云不同分类下歌曲热评的python爬虫,并且不怕被封ip(非使用代理)

    这个爬虫是我一门课程的作业中用到,很久了,偶然想起就分享到这里吧,我写的大部分代码,小部分由我同学完成. 再抓评论过程中被封ip这是个令人头疼的事情,如果你是宽带用户,并且是动态ip,被封ip后直接调 ...

最新文章

  1. centos7通过yum升级内核到最新版本
  2. Redis的常用命令——set的常用命令
  3. Hadoop的基本概念和简单使用
  4. 无线路由器、AP、胖AP、瘦AP的概念区别
  5. linux rm 不释放_linux删除文件空间不释放问题解决
  6. java 关键字volatile的作用
  7. XCode7 创建framework
  8. 福州3 2五年制计算机专业的学校,福州有哪些五年制大专
  9. 【软件质量】代码评审“亮红灯”的情况
  10. 这届程序员,要做好苦日子的准备了?
  11. 字节大牛教你手撕Java学习,大厂直通车!
  12. 软件测试中的风控,测试过程中会遇到哪些风险和机会?
  13. 视频md5修改器苹果手机
  14. Java 移位运算符
  15. 程序员如何写简历|附10个模版
  16. Lakes.AERMOD.View.v8.9.0 1CD大气扩散模型软件包
  17. python脚本编程:批量压缩图片大小
  18. 解决echarts的title和legend重合问题(转)
  19. 一期Go群问答-并发控制-数据竞争-错误与异常
  20. 2020牛客国庆集训派对day2 补题J

热门文章

  1. Python中的图像处理
  2. 位、字节、半字、字的概念和内存位宽
  3. LOTO示波器 软件功能 井字测量光标的锁定功能用于跨屏幕测量
  4. 新媒体运营教程:私域流量运营有5大关键指标
  5. 库克清华演讲:乔布斯弥留之际的一句话
  6. 转自 zera php中extends和implements的区别
  7. 逐个试探法_在线促销游戏的基本设计试探法
  8. 气体流量开关的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  9. Ctrix的文件launch.ica文件无法打开的解决办法
  10. 媒体邀约直播现场搭建,邀请媒体官方直播平台分流如何做