大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行更新,博客主页:https://buwenbuhuo.blog.csdn.net/。

PS:由于现在越来越多的人未经本人同意直接爬取博主本人文章,博主在此特别声明:未经本人允许,禁止转载!!!

特此声明:博主在本片博文的第一部分引用借鉴的程序猿果果《爬虫为什么要使用代理IP》这篇文章,感兴趣的同学可以看下。

目录

  • 推荐
  • 一、为什么使用代理IP
    • 1、基本原理
    • 2、代理的作用
  • 二、如何使用代理IP
  • 三、自动提取代理


推荐


  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥

  ♥欢迎大家关注公众号【不温卜火】,关注公众号即可以提前阅读又可以获取各种干货哦,同时公众号每满1024及1024倍数则会抽奖赠送机械键盘一份+IT书籍1份哟~♥

一、为什么使用代理IP

我们在做爬虫的过程中经常会遇到以下情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。

既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封IP了吗?

这个时候就用到代理IP了,说到代理IP下面就需要先基本原理、代理的作用。

1、基本原理

代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理服务器再发送给Web服务器,接着由代理服务器再把Web服务器返回的响应转发给本机。这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装,这就是代理的基本原理。

2、代理的作用

  • 突破自身IP访问限制,访问一些平时不能访问的站点。
  • 访问一些单位或团体内部资源:比如使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。
  • 提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中取出信息,传给用户,以提高访问速度。
  • 隐藏真实IP:上网者也可以通过这种方法隐藏自己的IP,免受攻击。对于爬虫来说,我们用代理就是为了隐藏自身IP,防止自身的IP被封锁。

二、如何使用代理IP


如何使用代理IP主要看你用什么语言写的爬虫,使用什么框架,使用代理是一种基本的业务需求,基本上所有爬虫都会内置支持。

一提到使用代理IP ,就不得不说是使用免费IP还是花钱使用高匿代理。这个东西主要还是看个人了,如果对ip要求不高,你可以选择使用网上免费的开放代理,自己建一个程序维护一个ip池,爬取一些代理网站的免费ip,加一道测试程序,如果测试可以用,就把它收集起来供爬虫使用。不过免费代理可用率实在是太低,而且不是很稳定,经常会失效,条件允许的话强烈建议花点钱选择收费的私密代理。

PS:经常使用的西刺代理已经挂掉了,打开网页之后,我们会发现已经无法访问了

便宜没好货,更别说免费的,免费的代理现在好用的博主暂时也不知道。不过可以找那种免费试用的。博主测试用的是芝麻代理,如果只是测试的话可以领取每日免费IP

下图为获取到的代理IP

好了,代理ip已经获取完毕了,下面我们是不是需要找一个测试网站,下面博主给出一个专门测试的网站:https://httpbin.org/

打开网页之后,我们可以看到ip为本机ip,下面我们通过添加代理ip进行访问并查看结果。

下面通过代码进行实现:

# encoding: utf-8
'''@author 李华鑫@create 2020-10-06 15:57Mycsdn:https://buwenbuhuo.blog.csdn.net/@contact: 459804692@qq.com@software: Pycharm@file: 代理ip.py@Version:1.0'''
import requestsproxies = {"https":"https://58.218.200.247:9934"
}response = requests.request(method="get",url="https://httpbin.org/get",proxies=proxies)
print(response.text)


爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用相关推荐

  1. 爬虫入门经典(十) | 一文带你快速爬取网易云音乐

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  2. 爬虫入门经典(十一) | 一文带你爬取传统古诗词(超级简单!)

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  3. 爬虫入门经典(八) | 一文带你快速爬取股吧

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  4. 一文带你搞懂从动态代理实现到Spring AOP

    摘要:本文主要讲了Spring Aop动态代理实现的两种方式. 1. Spring AOP Spring是一个轻型容器,Spring整个系列的最最核心的概念当属IoC.AOP.可见AOP是Spring ...

  5. python爬虫代码1000行-简单用14行代码写一个Python代理IP的爬虫

    相信用别的语言只用14行是写不出来这样的效果的!而我们的Python 只需要区区的14行代码就能写出来哦! 这就是Python为什么是全球现在比较流行的语言之一了!因为简单 容易学! 比较上手! 现在 ...

  6. 爬虫入门经典(十二) | 一文带你快速爬取豆瓣电影

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  7. python 计算机程序设计-某高校计算机编程教授教你如何快速入门python,一文带你进入编程...

    image 如何快速入门Python 学习任何一门语言都是从入门(1年左右),通过不间断练习达到熟练水准(3到5年),少数人最终能精通语言,成为执牛耳者,他们是金字塔的最顶层.虽然万事开头难,但好的开 ...

  8. 爬虫入门经典(十七) | 图形验证码识别

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  9. 爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

最新文章

  1. python读取单元格的值csv,比较单元格值的csv文件python
  2. 【NLP】XLnet:GPT和BERT的合体,博采众长,所以更强
  3. Hive动态分区 参数配置及语法
  4. c++ 编写函数返回两个值最小值_结合实例来分析SQL的窗口函数
  5. asp 禁止某一个目录_asp.net core 系列 10 配置configuration (上)
  6. Kibana插件sentinl使用教程
  7. 用 1 行 Python 代码实现 FTP 服务器 - Pyftpdlib
  8. 在web页面实时播放监控视频
  9. Python简介,第2章–字符串和列表
  10. centos:gtk:No package ‘gdk-2.0‘ found
  11. Java大作业——手把手教你写俄罗斯方块
  12. 符号的英文读法(转)
  13. UVa 12412 - A Typical Homework (a.k.a Shi Xiong Bang Bang Mang)
  14. 4个方法:Excel筛选重复项
  15. 简单回顾下过去这一年的工作
  16. java 获取邮编_JAVA爬取邮编信息,生成XML
  17. python编程教程第九讲_Python入门学习视频,最全面讲解视频无偿分享,这些基础知识你都懂了吗?...
  18. 异化之地服务器维护要多久,异化之地5月9日停服维护公告_异化之地5月9日更新了什么_玩游戏网...
  19. 一、HTTPS详解SSL TLS
  20. html+css编写用户注册协议页面

热门文章

  1. html 图片 填充方式,聊聊CSS背景图片的几种填充类型
  2. 华为机试真题 C++ 实现【免单统计】
  3. 从中国到澳洲,我的挨踢10年
  4. mysql随机生成密码存到哪里_在MySQL中生成随机密码的方法
  5. [article]看到一篇文章:找工作?考研?出国?赚钱?未来
  6. 高频线子电路 (不含绪论部分)
  7. 你最近在读什么书,及CSAPP上的一个疑问
  8. 【kubernetes-工具篇】K9S详解-宝藏k8s界面工具
  9. 前端 HTML/CSS (十五)
  10. 树和树林的实现,不懂数据结构的人也能看懂