一、问题发现

近期我在做代理池的时候,发现了一种以前没有见过的反爬虫机制。当我用常规的requests.get(url)方法对目标网页进行爬取时,其返回的状态码(status_code)为521,这是一种以前没有见过的状态码。再输出它的爬取内容(text),发现是一些js代码。看来是新问题,我们来探索一下。

状态码和爬取内容.png

二、原理分析

打开Fiddler,抓取访问网站的包,我们发现浏览器对于同一网页连续访问了两次,第一次的访问状态码为521,第二次为200(正常访问)。看来网页加了反爬虫机制,需要两次访问才可返回正常网页。

Fiddler抓包信息.png

下面我们来对比两次请求的区别:

521请求:

521请求.png

200请求:

200请求.png

通过对比两次请求头,我们发现第二次访问带了新的cookie值。再考虑上面程序对爬取结果的输出为js代码,可以考虑其操作过程为:第一次访问时服务器返回一段可动态生成cookie值的js代码;浏览器运行js代码生成cookie值,并带cookie重新进行访问;服务器被正常访问,返回页面信息,浏览器渲染加载。

三、解决流程

弄清楚浏览器的执行过程后,我们就可以模拟其行为通过python作网页爬取。操作步骤如下:

  1. 用request.get(url)获取js代码

  2. 通过正则表达式对代码进行解析,获得JS函数名,JS函数参数和JS函数主体,并将执行函数eval()语句修改为return语句返回cookie值

  3. 调用execjs库的executeJS()功能执行js代码获得cookie值

  4. 将cookie值转化为字典格式,用request.get(url, cookies = cookie)方法获取得到正确的网页信息

四、代码实现

实现程序所需要用到的库:

import re                  #实现正则表达式
import execjs              #执行js代码 import requests #爬取网页 

第一次爬取获得包含js函数的页面信息后,通过正则表达式对代码进行解析,获得JS函数名,JS函数参数和JS函数主体,并将执行函数eval()语句修改为return语句返回cookie值。

# js_html为获得的包含js函数的页面信息
# 提取js函数名
js_func_name = ''.join(re.findall(r'setTimeout\(\"(\D+)\(\d+\)\"', js_html)) ​ # 提取js函数参数 js_func_param = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', js_html)) ​ # 提取js函数主体 js_func = ''.join(re.findall(r'(function .*?)</script>', js_html)) 

将执行函数eval()语句修改为return语句返回cookie值

# 修改js函数,返回cookie值
js_func = js_func.replace('eval("qo=eval;qo(po);")', 'return po')

调用execjs库的executeJS()功能执行js代码获得cookie值

# 执行js代码的函数,参数为js函数主体,js函数名和js函数参数
def executeJS(js_func, js_func_name, js_func_param): jscontext = execjs.compile(js_func) # 调用execjs.compile()加载js函数主体内容 func = jscontext.call(js_func_name,js_func_param) # 使用call()通过函数名和参数执行该函数 return func cookie_str = executeJS(js_func, js_func_name, js_func_param) 

将cookie值转化为字典格式

# 将cookie值解析为字典格式,方便后面调用
def parseCookie(string): string = string.replace("document.cookie='", "") clearance = string.split(';')[0] return {clearance.split('=')[0]: clearance.split('=')[1]} cookie = parseCookie(cookie_str) 

获得cookie后,采用带cookie的方式重新进行爬取,即可获得我们需要的网页信息了。

作者:欲摘桃花换酒钱
链接:https://www.jianshu.com/p/37d549a4bf44
来源:简书

转载于:https://www.cnblogs.com/ginowang42/p/11067668.html

关于千里马招标网知道创宇反爬虫521状态码的解决方案(python代码模拟js生成cookie _clearence值)...相关推荐

  1. 从头学习爬虫(四十)高阶篇----模拟js生成Cookie中__jsl_clearance来破解加速乐的反爬虫机制

    本文主要提供中间模拟生成Cookie中__jsl_clearance字段来破解加速乐的反爬虫机制 前后通过postman模拟代替代码实现 一 需求 http://www.cyicai.com/info ...

  2. html状态码521,python爬虫 处理521状态码

    在抓取数据的时候往往可以通过状态码来判断返回结果,今天在抓取数据的时候碰到了以前没有碰到过得状态码521,输出它的爬取内容(text),发现是一些js代码.一起探讨一下如何处理521状态码. 用cha ...

  3. 爬虫遭遇状态码521陷阱 破解js加密cookie

    最近接了个小单,遇到一个很头疼的问题,返回的状态码无限521,在网上查阅了各种资料后,终于解决了问题返回200. 首先咱们先贴上网址:点击打开链接 首先我们按照传统的方法: import reques ...

  4. 爬虫返回状态码“521” 解决方案 | 设置Cookie解决

    问题:在爬虫某个网页时,返回状态码为"521",如何解决? Code: import requestsdef get_one_page(url):headers = {'User- ...

  5. 服务器抽屉式显示屏HL2158,大屏幕显示系统等采购结果公告 - 千里马招标网

    系统可以(略),在出现意外情况时可以进行热切换保证整套服务器的运行:系统可以进行分布式部署,可使用多台服务器同时提供服务器,分摊带宽以及其它原因导致的负荷: 系统可以灵活的按照功(略)式,所有服务器( ...

  6. 大数据招标文件_大数据处理与分析平台及软件项目招标公告 - 千里马招标网

    存储系统 2套 品牌范围:(略) 外观:(略) 容量:(略) 控制器:本次配置Active-Active模式双控制器,控制器互为冗余提供故障切换功能,避免单点故障. 缓存:当前配置每控制器包含(略) ...

  7. 河南 教学仪器 matlab 招标,教学仪器设备采购预告 - 千里马招标网

    一.系统要求 系统需是针对(略)络的相关设备,能形成***络教学实验设备.其中***关等设备,(略)环境量的感知采样. 二.模块介绍 1.***关(1套) 核心板 *CPU内核:ARM cortex- ...

  8. python 状态码转字典文本_python爬虫 处理521状态码

    用request.get(url)获取js代码 执行函数eval()语句修改为return语句返回cookie值 调用execjs执行js代码获得cookie值 将cookie值转化为字典格式,用re ...

  9. 爬虫遭遇状态码521的方法

    在爬66ip代理的时候,发现一直返回的是521,在CSDN看了很多大神的解决方法,感觉很厉害(膜拜一下),也挺麻烦的,我自己试了selenium就成功了,而且也挺快的,简单代码如下: # 设置无界面 ...

最新文章

  1. 快起床刷题去,别人把你offer拿走啦
  2. AI一分钟 | 美国国会传唤扎克伯格:来,就5000万用户数据泄露案作证;菜鸟无人车路测视频曝光
  3. ISME: 北大吴晓磊课题组揭示合作演化新机制:“自私”驱动合作关系的建立?...
  4. Eclipse无法识别(手机)设备的解决方案
  5. quick check
  6. JavaScript实现省市联动
  7. 删除“已禁用输入法”托盘图标
  8. 一位小小码蚁工作2年多感想
  9. 微服务 前台调用后台的慢的原因_20年IT农民工分享SpringCloud微服务架构实战文档...
  10. ssh端口转发(之kettle ssh方式连接数据库)
  11. Android使用的设计模式2——策略模式
  12. 信息学奥赛一本通 1026:空格分隔输出 | OpenJudge NOI 1.1 06
  13. c语言指针易错情况,C语言/C++从入门到精通之指针易错点总结
  14. ubuntu中文乱码--添加中文字符集
  15. 【图解深度学习】【章节:1-1.2 | 神经网络输入输出】连小学生都能看懂的深度学习基础总结
  16. 直播带货系统的六大热门功能模块概述
  17. ant design of vue中表格列内容过长,需要截取并且鼠标滑过悬浮显示全部内容
  18. GIT--使用流程规范
  19. h5的第一天 做的自定义调色器
  20. 支持多种视频格式的html网页视频播放器代码

热门文章

  1. Raspberry Pi手把手教你在树莓派上安装USB无线网卡支持WIFI
  2. unity实现小地图功能
  3. Linux命令行怎么启用httpd,Linux httpd命令
  4. Java环境变量(Windows 10 Enterprise 2016 LTSB (x64) )
  5. 免费IP查询 如何进行域名IP查询
  6. 原型工具之团队协作: Axure VS Mockplus
  7. 三星配置服务怎么解决_三星手机笔记闪退怎么解决?三星手机好用的笔记App - 敬业签便签...
  8. dubbox入门demo
  9. SQL注入天书SQLi-LABS(Less1-7)
  10. Windows下Qt拔插U盘的检测方法