Python-常见的反爬虫手段

对于静态页面针对爬虫的手段常常为Headers验证及针对IP的用户行为分析。

一、Headers反爬虫机制

​ Headers反爬虫机制常常为验证Headers中的信息,常需要验证的信息为UserAgent或X-Token等。针对UserAgent的反爬虫手段,通过导入 fake_useragent 包随机选择UserAgent的方式进行请求。

import requests
from fake_useragent import UserAgentbase_url = 'http://icanhazip.com'
ua = UserAgent()
# User-Agent 采用随机选取的方式
headers = {'X-Token': 'eyJhbGciOiJIUzI1NiJ9.eyJpYXQiOjE2MTQ4NDY3MTksImp0aSI6IjVhMmMwYWMyLTAzNTYtNDQ5ZXXXXX', 'Cookie': 'JSESSIONID=3555BE5F1XXXXXX', 'User-Agent': ua.random
}
response = requests.get(base_url, headers=headers)
二、针对IP进行用户行为分析的反爬虫机制

​ 针对单个IP的用户行为分析,需要使用切换不同代理IP间断的拉取数据,从而避免被网站屏蔽。若资源充足,还可以使用分布式爬虫。

import requests"""
1.需要将代理IP加入数组
2.使用 url 验证代理IP是否可用
3.使用代理IP访问需要爬取的网站
"""
url = 'http://icanhazip.com'
proxies = [{'http': 'http://107.151.182.247:80'},{'http': 'http://206.253.164.101:80'}
]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit''/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
# proxies = random.choice(proxies)for ips in proxies:try:# 设置重连次数requests.adapters.DEFAULT_RETRIES = 3res = requests.get(url, headers=headers, timeout=3, proxies=ips)# 查看是否为代理IPprint(res.text)except:print("1代理IP无效!")

后续更新

Python-常见的反爬虫手段相关推荐

  1. Python 常见的反爬手段和解决思路

    学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...

  2. python网络爬虫系列(八)——常见的反爬手段和解决方法

    常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...

  3. 大型企业都在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...

  4. 大厂在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...

  5. 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)

    爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...

  6. python爬虫之逆向破解_这种python反爬虫手段有点意思,看我怎么破解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  7. 这种python反爬虫手段有点意思,看我怎么P解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  8. 【实战案例】这种python反爬虫手段有点意思,看我怎么P解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  9. Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)

    现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...

  10. 这种反爬虫手段有点意思,看我怎么把他秒破了

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

最新文章

  1. 精选Python开源项目Top10!
  2. angularJs 前端的页面分解与组装
  3. rootkit 检测报告
  4. 如何优化 Android Studio 启动、编译和运行速度?
  5. c++之静态成员详细介绍
  6. Hadoop学习之路一 Single Node Setup
  7. TCP/IP协议详解 卷一(阅读指导)
  8. opencv4 图像特征匹配_概述 | 全景图像拼接技术全解析
  9. VUE3搞一下数据录入
  10. vue-quasar-admin 一个包含通用权限控制的后台管理系统
  11. Atitit fms Strait (海峡) lst 数据列表目录1. 4大洋 12. 著名的海大约40个,总共约55个海 13. 海区列表 23.1. 、波利尼西亚(Polynesia,
  12. 微服务网关Spring Cloud Gateway
  13. 细说.NET中的多线程 (六 使用MemoryBarrier,Volatile进行同步)
  14. Error response from daemon: Get https://index.docker.io/v1/search?q=elastics earchn=25: net/http: T
  15. Frobenius自同构
  16. 如何获取手机的屏幕尺寸
  17. python图片raw转换成jpg
  18. 使用valgrind测试gluster fuse内存泄漏问题
  19. 编程之美1:那些关于1的个数的经典面试题
  20. 560万Facebook人际关系数据,揭秘家庭职业传承“真相”

热门文章

  1. 电动汽车充电设备 标准化设计方案:160kW一体式一机双枪充电机
  2. 公司安装了电脑监控是不是侵犯了员工的隐私?
  3. 考研复试英语口语对话超实用(一)
  4. 梅西离开巴萨,十大经典比赛必看
  5. c语言怎么表示小写字母a到z,C++_C语言字符串快速压缩算法代码,通过键盘输入一串小写字母(a~z - phpStudy...
  6. CH 6201 走廊泼水节
  7. iOS网络--同步,异步下载数据
  8. 微信小程序实现上传多张图片,删除图片
  9. Java热替换,不出现classcastException
  10. 装修材料知名品牌有哪些?