最近在爬区块链相关的快讯,上周巴比特改版后重写了爬虫,跑了一天就挂了。原来是网站使用了加速乐的服务,爬虫每次都返回521的状态码。

浏览器访问网站时:
第一次请求:返回521状态码和一段js代码。js会生成一段cookie并重新请求访问。
第二次请求:带着第一次得到的cookie去请求然后正确返回状态码200

而爬虫不能像浏览器一样执行js所以一直报错521
解决办法:

让爬虫模拟浏览器的行为:
将返回的js代码放在一个字符串中,然后利用execjs对这段代码进行解密,得到cookie放入下一次访问请求的头部中。

具体过程:

直接请求

将返回的这段js代码整理下:

<html>
<body>
<script language="javascript"> window.onload=setTimeout("ar(75)", 200);
function ar(YH) {var qo, mo="", no="", oo = [0xc2,0x0c,0x22,0xa2,0x68,0x21,0xe8,0x3d,0x1e,0xbb,0x94,0x15,0x16,0x17,0x95,0x17,0x58,0x18,0xce,0xc6,0xc1,0xd6,0x16,0xb5,0x36,0xd6,0x96,0xd6,0xd0,0x2f,0x6f,0x50,0xd0,0x90,0x47,0x18,0xcd,0xa3,0x39,0x57,0x37,0x77,0x89,0x49,0x47,0x9d,0xdd,0x14,0x6a,0xab,0x8b,0x81,0x3f,0x15,0x4c,0xc2,0x49,0x68,0x08,0x1f,0x36,0xb6,0xec,0xaa,0x63,0x39,0x57,0xd7,0x6d,0x26,0x08,0x9d,0x1e,0x74,0x8b,0x44,0x84,0xb1,0x8f,0xe5,0x1d,0xd5,0xec,0x8c,0xa0,0xe0,0x18,0xd7,0x0f,0x46,0xe5,0x23,0x00,0xb6,0x37,0xb7,0x70,0xa6,0x4e,0x04,0x7a,0x18,0x0e,0xc3,0x79,0x4a,0x68,0xbe,0x74,0xeb,0x04,0xc3,0x67,0x86,0xa4,0xe5,0x44,0x04,0x82,0xcb,0x82,0x47,0x48,0x21,0xb9,0xd1,0xfa,0x51,0x6f,0x28,0x64,0x22,0x22,0xc0,0x71,0xaf,0xc6,0xde,0xf4,0x0c,0xd4,0x2c,0xe1,0xff,0x57,0xad,0x63,0x8c,0xa4,0xa8,0x65,0x07,0x7e,0x96,0xa7,0x47,0x48,0x01,0x41,0x82,0x63,0x33,0xe9,0xc2,0xd9,0x3a,0xdf,0x60,0x73,0x4c,0xcc,0xcd,0x8e,0x06,0x1e,0x1b,0x39,0x79,0x1f,0x40,0xf6,0xef,0xa3,0x9b,0x13,0x2b,0x29,0x6a,0x4b,0x6b,0x0b,0x0c,0x0a,0xe2,0x82,0x83,0x27,0xa7,0x65,0x26,0xe5,0xc6,0x64,0xef,0xc8,0x61,0x62,0xe2,0x23,0xc8,0xd0,0x0a,0x0b,0xeb,0xa2,0x42,0x43,0xee,0x6f,0x2d,0xed,0xad,0x8e,0x2c,0xfc,0xd5,0x97,0xf1,0xf0,0x3b];qo = "qo=228; do{oo[qo]=(-oo[qo])&0xff; oo[qo]=(((oo[qo]>>3)|((oo[qo]<<5)&0xff))-251)&0xff;} while(--qo>=2);"; eval(qo);qo = 227; do { oo[qo] = (oo[qo] - oo[qo - 1]) & 0xff; } while (-- qo >= 3 );qo = 1; for (;;) { if (qo > 227) break; oo[qo] = ((((((oo[qo] + 28) & 0xff) + 148) & 0xff) << 6) & 0xff) | (((((oo[qo] + 28) & 0xff) + 148) & 0xff) >> 2); qo++;}po = ""; for (qo = 1; qo < oo.length - 1; qo++) if (qo % 7) po += String.fromCharCode(oo[qo] ^ YH);eval("qo=eval;qo(po);");
}
</script>
</body>
</html>

然后存为html文件用Chrome打开调试,在eval处打上断点。可以看到变量po的值:"document.cookie='_ydclearance=5640fae72a12f756938d88c1-60c4-4c28-a629-8da9e99d65cc-1534755025; expires=Mon, 20-Aug-18 08:50:25 GMT; domain=.8btc.com; path=/'; window.document.location=document.URL"
而字符串po的前半段的意思是给浏览器添加Cooklie,后半段window.document.location=document.URL是刷新当前页面。

所以我们的关键点是要获得cookie。python中可以用execjs执行js:

import requests
import re
import execjsheaders = {'user-agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/65.0.3325.181 Chrome/65.0.3325.181 Safari/537.36',}def get_html(url):first_html = requests.get(url=url,headers=headers).content.decode('utf-8')return first_htmldef executejs(first_html):# 提取其中的JS加密函数js_string = ''.join(re.findall(r'(function .*?)</script>', first_html))# 提取其中执行JS函数的参数js_arg = ''.join(re.findall(r'setTimeout\(\"\D+\((\d+)\)\"', first_html))js_name = re.findall(r'function (\w+)',js_string)[0]# 修改JS函数,使其返回Cookie内容js_string = js_string.replace('eval("qo=eval;qo(po);")', 'return po')func = execjs.compile(js_string)return func.call(js_name,js_arg)def parse_cookie(string):string = string.replace("document.cookie='", "")clearance = string.split(';')[0]return {clearance.split('=')[0]: clearance.split('=')[1]}def return_cookie(url):first_html = get_html(url)# 执行JS获取Cookiecookie_str = executejs(first_html)# 将Cookie转换为字典格式cookie = parse_cookie(cookie_str)print('cookies = ',cookie)return cookiereturn_cookie(url='https://www.8btc.com/flash')#结果:
cookies =  {'_ydclearance': '8c83e7fe9d6bd359e1eedc40-b55a-4ab5-98e2-22eb9b2ea9a7-1534917111'}
[Finished in 2.0s]

爬取巴比特快讯遇到状态码“521”相关推荐

  1. 【Python爬虫_1】爬取巴比特社区前5页列表和内容;

    import requests from bs4 import BeautifulSoup import json import time"""需求:爬取巴比特论坛的前5 ...

  2. python爬取网页时返回http状态码HTTP Error 418以及如何查看自己的User-Agent

    ** 问题:urllib.error.HTTPError: HTTP Error 418: ** 问题描述:当我使用Python的request爬取网页时返回了http状态码为418, 错误描述:经过 ...

  3. 爬虫爬取数据时,网页响应码返回404问题的解决方法

    爬虫报404问题: 在进行爬虫爬取数据的过程中,使用语句: r = requests.get(url, timeout=60, headers=headers, stream=True) # prin ...

  4. html状态码521,python爬虫 处理521状态码

    在抓取数据的时候往往可以通过状态码来判断返回结果,今天在抓取数据的时候碰到了以前没有碰到过得状态码521,输出它的爬取内容(text),发现是一些js代码.一起探讨一下如何处理521状态码. 用cha ...

  5. http状态码521——记一次网页爬取

    前段时间写了一个各应用市场某款应用的定时爬取任务,收集应用的下载量.评价.评分等信息然后报表展现,之前一直运行正常,前两天相关人员反馈数据出现异常,第一感觉肯定是该应用市场的网页结构发生变化了. 在本 ...

  6. Python3网络爬虫--爬取有声小说(附源码)

    文章目录 一.目标 1.首页 2.网页源代码 二.爬取详情页 1.查看详情页 2.小说详情 3.小说简介 4.播放列表 三.爬取小说音频 1.确定数据加载方式 2.寻找真实音频播放地址 3.URL解码 ...

  7. python写一个简单的爬虫程序(爬取快手)(附源码)

    快手是一个有意思的视频应用,但是它有一些视频不让下载,我们今天就用爬虫来实现爬取不让下载的视频: 首先右键点击检查,我们可以看见找到了视频的src,访问这个src就可以得到视频的下载网址,如下: 右键 ...

  8. python爬取去哪网数据_python最强的代理池,突破IP的封锁爬取海量数据(送项目源码)...

    一个强大到超乎你的想象的异步IP池项目--async-proxy-pool 随着大型网站反扒机制的增强,更改IP登陆已经成为一种最高效的方式,为此打造一款超强IP池项目,采用最新最快的Python技术 ...

  9. 轻松实现全国高校地理位置数据爬取(文末附源码和数据集)

    大家好,我是小一 一个城市的历史底蕴,不光可以从经济.文化和人文景点,还可以从高校的数量可以看出来.所以,今天就来试试如何爬取全国高校的分布数据. 以下文章比较适合初学者,老读者请酌情加速阅读. 今天 ...

最新文章

  1. python发展前景怎么样-python发展前景怎么样
  2. C语言用指针求两个矩阵的差,求破C语言用指针和函数求转置矩阵
  3. 如何加入IETF 如何发表自己的RFC
  4. mongodb mysql 写_MongoDB与MySQL关于写确认的异同
  5. elctron项目_electron项目结构介绍
  6. hihocoder 1035 : 自驾旅行 III
  7. Ubuntu 8.04 Hardy LTS 软件源设置
  8. 怎样用计算机演示声音的波形,趣味物理实验 用计算机观察声音的波形
  9. 別人的心得。。。。。學習
  10. 计算机软件行业代码,行业代码大全.docx
  11. 我在淘宝做前端的这三年 — 第三年
  12. 《英语阅读教学与思维发展》读书笔记(三)
  13. java构建树状结构工具类
  14. LabVIEW控制高速微快门
  15. Unity摄像机画面制作全景图片|截图制作全景图
  16. RCNN SPPNet Fast R-CNN Faster R-CNN Cascade R-CNN
  17. Neptune CHT-C助力零束打造智舱界王者
  18. ThinkPHP5结合云之讯短信验证简单案例
  19. JQuery实现音乐导航栏的简单实现
  20. 英飞凌基础学习笔记(SMU)Safety Management Unit

热门文章

  1. DCT变换的基函数与基图像
  2. python turtle 绘制七段数码管以及14段数码管显示字母和时间
  3. 远程粒子计数器助力药企环境监测 为洁净卫生护航
  4. 华为疯狂扩招3000名数据分析师,招聘要求让人窒息!
  5. linux定时任务之自动启动Tomcat失效问题排查
  6. python斐波那契数列前20项_Python初学者笔记:打印出斐波那契数列的前10项
  7. 独立显卡、核心显卡和集成显卡的区别
  8. asp.net旅游网站系统VS开发sqlserver数据库web结构c#编程计算机网页项目
  9. 孙鑫老师VC笔记(转)
  10. a[i]-‘0‘与(int)a[i]区别