1、遇到的问题:使用爬虫在爬取数据的时候,如果爬取的频率过快,或者是一些其它的原因,被对方网站识别出来是爬虫程序,这个时候我们的IP就会被面临封杀的危险,一旦IP被封了之后,我们的爬虫程序就无法去爬取该网站资源了。

​2、如何解决?
使用代理IP

免费的ip网站 :推荐豌豆代理 ,每天20个免费的(但不一定都能用)
​付费的ip网站:推荐快代理,价格便宜一些。

3、关于2个ip的说明
(1)内网ip:即我们在cmd里输入ipconfig 得到:

(2)外网ip:我们可以在网站http://httpbin.org/ip查看到:

4、我们所说的是外网ip可能被封。

一、ip反爬
1、免费的代理ip


在上图中就有20个免费的代理ip,一个一个的试:

结果20个都不行。

2、付费的代理IP(https://www.kuaidaili.com/pricing/)

独享代理和私密代理需要该网站的登录用户名和密码
​语法:proxies = {‘协议’:‘协议://用户名:密码@ip:端口号’}

(1)独享代理

结果:

(2)开放代理:


代码:

import requestsclass Proxy:def __init__(self):self.proxy_url = 'http://dev.kdlapi.com/api/getproxy/?orderid=992520441312817&num=20&protocol=2&method=1&an_ha=1&sep=2'self.test_url = 'https://www.baidu.com/'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'}def get_proxy(self):html = requests.get(url=self.proxy_url,headers=self.headers).textproxy_list = html.split('\n')for proxy in proxy_list:self.text_proxy(proxy)def text_proxy(self,proxy):     # 测试开放代理是否可用proxies = {'http': '{}'.format(proxy),'https': '{}'.format(proxy)}try:res = requests.get(url=self.test_url,proxies=proxies,headers=self.headers,timeout=2)if res.status_code == 200:print(proxy,'能用')except Exception as e:print(proxy,'不能用')def main(self):self.get_proxy()if __name__ == '__main__':spider = Proxy()spider.main()

结果:

(3)私密代理:


import requestsclass Proxy:def __init__(self):self.proxy_url = 'http://dps.kdlapi.com/api/getdps/?orderid=982520462433055&num=20&pt=1&sep=2'self.test_url = 'https://www.baidu.com/'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'}def get_proxy(self):html = requests.get(url=self.proxy_url,headers=self.headers).textproxy_list = html.split('\n')for proxy in proxy_list:self.text_proxy(proxy)def text_proxy(self,proxy): # 测试开放代理# 'http':'http://192149641:1ts5t50q@47.108.189.170:16816',账户名和密码proxies = {'http': 'http://192149641:1ts5t50q@{}'.format(proxy),'https': 'https://192149641:1ts5t50q@{}'.format(proxy)}try:res = requests.get(url=self.test_url,proxies=proxies,headers=self.headers,timeout=2)if res.status_code == 200:print(proxy,'能用')except Exception as e:print(proxy,'不能用')def main(self):self.get_proxy()if __name__ == '__main__':spider = Proxy()spider.main()

结果:

爬虫笔记38之反爬系列一:ip反爬、相关推荐

  1. IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域名汇总,域名历史解析记录查询,IP地址查对应机房名称、地址,查IP地址的AS号码...

    IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域名汇总: http://bgp.he.net/,IP地址查对应机房:IP地址在 bgp.he.net 直接能查到IP所属机房或运营商的AS号. ...

  2. python ip反查询_利用ip反查指定域名

    1.[利用ip反查指定域名代码][Python]代码 #!/usr/bin/python2.7 # -*- coding:utf-8 -*- import urllib,urllib2 import ...

  3. IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域名汇总:

    http://cn.bing.com/search?q=ip%3A220.181.111.85 http://dns.aizhan.com/?q=www.baidu.com http://domain ...

  4. IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域名汇总

    http://www.cnblogs.com/dongchi/p/4155368.html

  5. IP反查网站/IP反查接口 域名汇总

    IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域名汇总,域名历史解析记录查询,IP地址查对应机房名称.地址,查IP地址的AS号码. IP反查网站,ip反查接口,旁站查询接口大全,通过IP查域 ...

  6. 【实用工具系列之爬虫】python实现爬取代理IP(防 ‘反爬虫’)

    系列 [实用工具系列之爬虫]python实现爬取代理IP(防 '反爬虫') [实用工具系列之爬虫]python实现快速爬取财经资讯(防 '反爬虫') 本文使用python实现代理IP的爬取,并可以防' ...

  7. 爬虫笔记(七)——利用selenium对猫眼、豆瓣电影榜单的爬取

    系列文章目录 提示: 爬虫学习笔记(四)--糗百爬虫遇到的反爬 爬虫学习笔记(三)--利用JSON爬取豆瓣热映的使用 爬虫学习笔记(二):requests基础用法之爬取各类主流网站2 爬虫学习笔记(一 ...

  8. 爬虫笔记——东方财富科创板数据爬取(requests方法)

    爬虫笔记--东方财富科创板数据爬取(requests方法) 网页观察 网页源代码分析 具体代码 上篇文章:爬虫笔记--东方财富科创板数据爬取(selenium方法)介绍了selenium爬取东方财富科 ...

  9. 爬虫笔记——东方财富科创板数据爬取(selenium方法)

    爬虫笔记--东方财富科创板数据爬取(selenium方法) 网站观察 网站分析 公司详情页面 具体代码 selenium方式爬取 优点:无需观察网站去查找数据来源 缺点:速度较requests方法更慢 ...

最新文章

  1. 量子计算机人类意识云,意识上传-人类距离永生还要多久(大脑的工作原理很有可能与量子计算机一致)...
  2. Apache Mahout中推荐算法Slope one源码分析
  3. 【浅墨Unity3D Shader编程】之三 光之城堡篇:子着色器、通道与标签的写法 amp; 纹理混合...
  4. 模拟六:STEMA 考试选择题模拟练习试卷(中级组)及答案 + 自我解题笔记
  5. 北京/苏州内推 | 微软STCA搜索广告算法团队招聘NLP算法工程师
  6. 是否要入坑强化学习,看了这篇文章再说
  7. oauth2和jwt_使用具有OAuth2的Web应用程序和JWT的使用来调用API – WSO2 API Manager
  8. fortran 读整行_我整周读过的最有趣的东西
  9. java中IO流的标准异常处理代码
  10. MySQL只有.frm文件恢复表结构
  11. 如何下载MySQL的驱动包
  12. 磁盘碎片对计算机系统的影响,磁盘碎片整理第9遍了|Win7磁盘碎片整理的方法
  13. 微众银行客服电话是95384 认准官方的人工客服电话
  14. 小树corexy改voron装前必看
  15. (附源码)计算机毕业设计SSM快递代收系统
  16. 聊一下最近的裁员大潮
  17. 常见的HTTP状态码以及代表的意义
  18. 刘韧:和人物共同创作人物故事
  19. vue-router 是什么?它有哪些组件
  20. react使用qrcode.react生成扫描二维码

热门文章

  1. android开发手机推荐 2015,2015年9月十佳最好安卓手机排行榜 高性价比Android手机推荐...
  2. 浅谈 大数据分析:市场分析、运营分析、用户行为分析
  3. 数据化转型系列主题:PoC, Prototype 和 MVP详解
  4. QoS mechanisms-congestion avoidance(拥塞避免)
  5. 网络爬虫笔记—图形验证码获取
  6. 融云「百幄」之视频会议和直播,让办公桌无限延伸
  7. centos7下mysql卸载
  8. Linux操作系统与基本使用,小白必看文章
  9. 02-javase-面向对象-笔记
  10. patran随机振动的计算方法