Python-常见的反爬虫手段

对于静态页面针对爬虫的手段常常为Headers验证及针对IP的用户行为分析。

一、Headers反爬虫机制

Headers反爬虫机制常常为验证Headers中的信息，常需要验证的信息为UserAgent或X-Token等。针对UserAgent的反爬虫手段，通过导入 fake_useragent 包随机选择UserAgent的方式进行请求。

import requests
from fake_useragent import UserAgentbase_url = 'http://icanhazip.com'
ua = UserAgent()
# User-Agent 采用随机选取的方式
headers = {'X-Token': 'eyJhbGciOiJIUzI1NiJ9.eyJpYXQiOjE2MTQ4NDY3MTksImp0aSI6IjVhMmMwYWMyLTAzNTYtNDQ5ZXXXXX', 'Cookie': 'JSESSIONID=3555BE5F1XXXXXX', 'User-Agent': ua.random
}
response = requests.get(base_url, headers=headers)

二、针对IP进行用户行为分析的反爬虫机制

针对单个IP的用户行为分析，需要使用切换不同代理IP间断的拉取数据，从而避免被网站屏蔽。若资源充足，还可以使用分布式爬虫。

import requests"""
1.需要将代理IP加入数组
2.使用 url 验证代理IP是否可用
3.使用代理IP访问需要爬取的网站
"""
url = 'http://icanhazip.com'
proxies = [{'http': 'http://107.151.182.247:80'},{'http': 'http://206.253.164.101:80'}
]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit''/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
# proxies = random.choice(proxies)for ips in proxies:try:# 设置重连次数requests.adapters.DEFAULT_RETRIES = 3res = requests.get(url, headers=headers, timeout=3, proxies=ips)# 查看是否为代理IPprint(res.text)except:print("1代理IP无效！")

后续更新

Python-常见的反爬虫手段相关推荐

Python 常见的反爬手段和解决思路
学习目标: 1.了解服务器反爬的原因: 2.了解服务器常反什么样的爬虫: 3.了解反爬虫领域常见的一些概念: 4.了解反爬的三个方向: 5.了解常见基于身份识别进行反爬: 6.了解常见基于 ...
python网络爬虫系列（八）——常见的反爬手段和解决方法
常见的反爬手段和解决思路学习目标了解服务器反爬的原因了解服务器常反什么样的爬虫了解反爬虫领域常见的一些概念了解反爬的三个方向了解常见基于身份识别进行反爬了解常见基于爬虫行为进 ...
大型企业都在用的Python反爬虫手段，破了它！
SVG 映射反爬虫很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...
大厂在用的Python反爬虫手段，破了它！
SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...
【爬虫进阶】常见的反爬手段和解决方法（建议收藏）
爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...
python爬虫之逆向破解_这种python反爬虫手段有点意思，看我怎么破解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
这种python反爬虫手段有点意思，看我怎么P解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
【实战案例】这种python反爬虫手段有点意思，看我怎么P解
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...
Python之反爬虫手段（User-Agent，Cookie，Referer，time.sleep()，IP代理池）
现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...
这种反爬虫手段有点意思，看我怎么把他秒破了
这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

Python-常见的反爬虫手段

Python-常见的反爬虫手段

一、Headers反爬虫机制

二、针对IP进行用户行为分析的反爬虫机制

Python-常见的反爬虫手段相关推荐

最新文章

热门文章