Python-常见的反爬虫手段
Python-常见的反爬虫手段
对于静态页面针对爬虫的手段常常为Headers验证及针对IP的用户行为分析。
一、Headers反爬虫机制
Headers反爬虫机制常常为验证Headers中的信息,常需要验证的信息为UserAgent或X-Token等。针对UserAgent的反爬虫手段,通过导入 fake_useragent 包随机选择UserAgent的方式进行请求。
import requests
from fake_useragent import UserAgentbase_url = 'http://icanhazip.com'
ua = UserAgent()
# User-Agent 采用随机选取的方式
headers = {'X-Token': 'eyJhbGciOiJIUzI1NiJ9.eyJpYXQiOjE2MTQ4NDY3MTksImp0aSI6IjVhMmMwYWMyLTAzNTYtNDQ5ZXXXXX', 'Cookie': 'JSESSIONID=3555BE5F1XXXXXX', 'User-Agent': ua.random
}
response = requests.get(base_url, headers=headers)
二、针对IP进行用户行为分析的反爬虫机制
针对单个IP的用户行为分析,需要使用切换不同代理IP间断的拉取数据,从而避免被网站屏蔽。若资源充足,还可以使用分布式爬虫。
import requests"""
1.需要将代理IP加入数组
2.使用 url 验证代理IP是否可用
3.使用代理IP访问需要爬取的网站
"""
url = 'http://icanhazip.com'
proxies = [{'http': 'http://107.151.182.247:80'},{'http': 'http://206.253.164.101:80'}
]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit''/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
# proxies = random.choice(proxies)for ips in proxies:try:# 设置重连次数requests.adapters.DEFAULT_RETRIES = 3res = requests.get(url, headers=headers, timeout=3, proxies=ips)# 查看是否为代理IPprint(res.text)except:print("1代理IP无效!")
后续更新
Python-常见的反爬虫手段相关推荐
- Python 常见的反爬手段和解决思路
学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...
- python网络爬虫系列(八)——常见的反爬手段和解决方法
常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...
- 大型企业都在用的Python反爬虫手段,破了它!
SVG 映射反爬虫 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...
- 大厂在用的Python反爬虫手段,破了它!
SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...
- 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)
爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...
- python爬虫之逆向破解_这种python反爬虫手段有点意思,看我怎么破解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
- 这种python反爬虫手段有点意思,看我怎么P解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
- 【实战案例】这种python反爬虫手段有点意思,看我怎么P解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
- Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)
现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...
- 这种反爬虫手段有点意思,看我怎么把他秒破了
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
最新文章
- 精选Python开源项目Top10!
- angularJs 前端的页面分解与组装
- rootkit 检测报告
- 如何优化 Android Studio 启动、编译和运行速度?
- c++之静态成员详细介绍
- Hadoop学习之路一 Single Node Setup
- TCP/IP协议详解 卷一(阅读指导)
- opencv4 图像特征匹配_概述 | 全景图像拼接技术全解析
- VUE3搞一下数据录入
- vue-quasar-admin 一个包含通用权限控制的后台管理系统
- Atitit fms Strait (海峡) lst 数据列表目录1. 4大洋 12. 著名的海大约40个,总共约55个海 13. 海区列表 23.1. 、波利尼西亚(Polynesia,
- 微服务网关Spring Cloud Gateway
- 细说.NET中的多线程 (六 使用MemoryBarrier,Volatile进行同步)
- Error response from daemon: Get https://index.docker.io/v1/search?q=elastics earchn=25: net/http: T
- Frobenius自同构
- 如何获取手机的屏幕尺寸
- python图片raw转换成jpg
- 使用valgrind测试gluster fuse内存泄漏问题
- 编程之美1:那些关于1的个数的经典面试题
- 560万Facebook人际关系数据,揭秘家庭职业传承“真相”