爬虫之代理ip的应用

​ 在爬虫的过程中,我们经常会遇见很多网站采取了防爬虫技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。

​ 如果一直用同一个代理ip爬取这个网页,很有可能ip会被禁止访问网页,所以基本上做爬虫的都躲不过去ip问题。

​ 爬虫使用ip代理的案例

import requests# 定义请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36',
}# 加入代理:使用proxies参数,接收字典
proxy = {# 格式:# '协议':'协议://ip地址:端口号'# 注:代理ip的协议为http'http':'http://119.14.253.128:8088'
}# 注意:
# 代理的使用,如果代理服务器的协议和目标网站的协议不同,就不会使用代理ip,使用的是自己的ip
# 所以这次爬取并没有使用代理ip,而是使用自己的ip进行的爬取,如果读者想要进行更多的尝试,可找一些http的网站进行尝试# 发起请求,接收响应
# response = requests.get(# 注:请求地址的协议为https,与代理ip的协议不同,实际上是用自己的ip进行爬取url='https://www.baidu.com/',headers=headers,proxies=proxy
)response = requests.get(url='https://httpbin.org/ip',headers=headers,proxies=proxy
)# 保存
# with open('baidu.html','w',encoding='utf-8') as fp:
#     fp.write(response.text)

爬虫之使用代理ip爬取相关推荐

  1. 爬虫篇——代理IP爬取备用及存储

    爬虫篇--代理IP爬取备用及存储 代码 代码 本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...

  2. 数据抓取 -- 使用代理IP爬取数据:(2):使用timeout 时要注意,防止数据加载不完整 ,导致爬取丢失(举例)

    问题: 在使用代理IP爬取数据的时候,经常会出现爬取的网址信息不完整的现象.其中有个原因就是timeout设置问题. 代码如下: import requests from bs4 import Bea ...

  3. 快代理IP爬取 并建立可用IP池

    下面展示一些 内联代码片. #快代理IP爬取 并建立可用IP池 import requests import time from lxml import etree from fake_userage ...

  4. python爬虫代理的使用_从零开始写Python爬虫 --- 2.4 爬虫实践:代理的爬取和验证...

    爬网站的时候,由于各种原因,ip被锁了,这个时候我们就需要通过代理来突破封锁.网上有很多代理网站,付费和免费的都有,这次我们就来写一个scrapy爬虫,爬一些免费的代理下来用. 目标分析: 本次爬取了 ...

  5. 高可用免费代理ip爬取实战

    我们在使用爬虫的时候,会对代理ip有一定程度的需求.今天爬取的这个免费代理网站不是大家已经爬烂的西刺和66等代理网站,是我无意间发现的~ 这个网站还是有一点意思的. 注意到没有,这里的ip地址被换成了 ...

  6. 第2.1章 scrapy之国内高匿代理IP爬取

    这个网站较为简单,故作为爬虫的第一个示例 代码如下: # -*- coding: utf-8 -*- ''' Created on 2017年6月12日 从国内高匿代理IP网站中获取动态ip信息 @s ...

  7. 利用代理IP爬取京东网站手机数据

    1.代理简介 在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性. ...

  8. java使用代理ip爬取网站内容

    在一些有反爬虫技术的网站中,检测到同一ip在短时间内多次访问的时候,可能就会禁掉这个ip. 上有政策,下有对策,为了应对这种情况,可以使用多个代理ip去爬取这个网站. java使用代理ip有两种方法: ...

  9. 代理IP爬取和验证(快代理西刺代理)

    前言 仅仅伪装网页agent是不够的,你还需要一点新东西 今天主要讲解两个比较知名的国内免费IP代理网站:西刺代理&快代理,我们主要的目标是爬取其免费的高匿代理,这些IP有两大特点:免费,不稳 ...

最新文章

  1. Linux下对MySQL数据库的常见操作【创建】【删除】【导入数据库】
  2. linux后台运行命令,nohup
  3. jeecg自定义datagrid查询
  4. 【渝粤教育】国家开放大学2018年秋季 0692-21T化工设备机械基础 参考试题
  5. 一款发帖软件的逆向分析(C#)
  6. 验证码识别登录:使用超级鹰(验证码识别第三方包)识别超级鹰网站登录
  7. jmeter使用.jmx脚本
  8. HTML5期末大作业:个人网页设计——作家三毛6页(代码质量好) 学生DW网页设计作业源码 web课程设计网页规划与设计
  9. TI—CC3200【6】通过功放芯片的使能引脚消去POPO声
  10. sklearn机器学习:随机森林学习与调参
  11. 大数据助力精细化运营 百度糯米持续提高用户体验
  12. snmp v3 参数_snmp v3的安全配置 snmp认证与加密配置(53)
  13. 根据UA获取用户访问操作系统、浏览器名
  14. IOS端使用WebRTC实现一对一音视频通话
  15. 计算机网络原理与技术
  16. BeautifulSoup介绍
  17. 音乐人工智能与音乐信息科技SCI期刊列表及影响因子
  18. [知了开发]“知了”APP整体设计
  19. vue:日历表格(element-ui)
  20. TL6678-EasyEVM高端多核DSP评估板

热门文章

  1. document.referrer之隐藏来源
  2. Bootstrap——网格布局
  3. 什么是登陆器劫持登陆器劫持怎么办GOM引擎的登陆器会被劫持吗
  4. AsyncTask的优缺点
  5. 美通企业日报 | 中国最佳创新公司50名榜单发布;柯锐世全新亚洲总部在上海启用...
  6. 匈牙利命名法(Hungarian Notation)
  7. JY02调试-无刷电机驱动芯片
  8. php创建多级栏目_PHP 实现无限极栏目分类
  9. Layui数据表格隔行变色的两种方法
  10. H3C设备运行状态查询常用命令(建议收藏)