http状态码521——记一次网页爬取
前段时间写了一个各应用市场某款应用的定时爬取任务,收集应用的下载量、评价、评分等信息然后报表展现,之前一直运行正常,前两天相关人员反馈数据出现异常,第一感觉肯定是该应用市场的网页结构发生变化了。
在本地运行数据爬取任务,发现确实有个应用市场报521错误,这个错误没见过啊,开始网上各种搜,发现别人说的貌似跟我的情况不一样,没办法只能自己摸索了。
于是把资源路径直接拿出来在浏览器里面访问,居然没问题!我想是不是刚才对方的服务器挂了这会又好了,立马又把爬虫运行了一遍,结果发现是自己意淫了。。。没办法,只能F12打开开发者工具——网络,然后重新访问,http状态码200,没什么问题啊,一切正常,我就纳闷了,为什么浏览器正常、爬虫却不行,难道是服务端做了什么针对非浏览器访问的限制,顿时眼前一亮,脑海中蹦出一个关键字“cookies",然后将请求header里的参数拿来各种试,没一点效果,感觉进入了死胡同,怎么也找不着出路。。。
自我安慰着,换个浏览器试试吧。。。这一换果然换出了问题,让我发现了浏览器地址栏貌似有变化,赶紧打开fiddler,清空缓存重新访问,哈哈,终于让我逮到了,它居然请求了3次,第二次还在地址后面加上了一个参数!!第一次状态521,第二次状态302,第三次状态200并成功返回了页面,到此感觉终于有了点眉目。
于是开始分析每一次的请求,第一次访问地址没做任何修饰先排除,但是第二次请求的参数从哪来的呢(本人是做后端开发,对前端一知半解)?开始在第一次返回的header里面各种找,没发现异常,这怎么可能!想不通啊!点着点着发现一段js脚本,还是各种字符各种运算符杂乱无章,难道是这段脚本有问题?于是将此脚本摘出,模拟运行,终于得到了跳转链接!
此时所有的问题都迎刃而解。。。
转载于:https://my.oschina.net/u/2551642/blog/654732
http状态码521——记一次网页爬取相关推荐
- html状态码521,python爬虫 处理521状态码
在抓取数据的时候往往可以通过状态码来判断返回结果,今天在抓取数据的时候碰到了以前没有碰到过得状态码521,输出它的爬取内容(text),发现是一些js代码.一起探讨一下如何处理521状态码. 用cha ...
- 静态网页爬取-Requests
静态网页爬取-Requests import requests r=requests.get('http://www.baidu.com/') print(r.encoding) print(r.st ...
- Python数据分析:爬虫从网页爬取数据需要几步?
对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...
- Python 与金融科技4|网页爬取上证50股票代码
本期我们将以上证50的五十只股票为例,学习如何使用爬虫工具 Beautiful Soup 爬取网站上的表格数据并将需要的数据以 pickle 的格式保存到本地. 前言 在这个系列中,我们将共同学习如何 ...
- beautifulsoup网页爬虫解析_Python爬虫快速入门,静态网页爬取
在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...
- Python爬虫快速入门,静态网页爬取!
在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...
- Python爬虫: 单网页 所有静态网页 动态网页爬取
Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...
- 爬取电影资源之网页爬取篇(python)
不知道大家平常喜不喜欢待在宿舍一个人看电影? 作为一个高龄屌丝,电影对我来说是必不可少的.平常无聊时自己一个人待在宿舍看看电影,看看书. (人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心) 其实还是喜 ...
- Python3 实现大众点评网酒店信息和酒店评论的网页爬取
**作者:**Mr. Ceong 链接:http://blog.csdn.net/leigaiceong/article/details/53188454 Python3 实现大众点评网酒店信息和酒店 ...
最新文章
- Linux下用C语言最基本的程序开发与调试
- Java中ArrayList源码分析
- mysql-自动备份数据库服务
- cmake + visual studio 配置出错的解决方法
- linux下的shell编程
- DirectX11 With Windows SDK--24 Render-To-Texture(RTT)技术的应用
- 浅析 Linux 初始化 init 系统,第 2 部分: UpStart
- mysql-数据库操作-连接-创建-删除-修改编码-查询-切换
- tomcat 查看当前请求数_原生线程池这么强大,Tomcat 为何还需扩展线程池?
- 在SharePoint 2010中创建联系人Web数据库网站
- LinkedHashMap如何保证有序
- 大数据给人们生活带来的改变_大数据给我们的生活带来了哪些改变?
- 计算机星形拓扑结构,星型拓扑结构
- 点播系统加服务器加投影加音响,打造真实家庭影院 投影机+音响巧搭配
- 什么是java full gc_关于Java垃圾回收,你必须要知道FullGC是什么
- 使用C语言的七个步骤
- vector erase
- string::assign
- 1688关键词搜索api(附可用)
- 简单到出人意料的CNN图像分类策略
热门文章
- request参数升序排序 md5加密 防重播 header信息 java API接口调用 切片机制实现
- 09 线性回归及矩阵运算
- 落克王国经验计算机,洛克王国宠物各等级所需经验表
- [MFC]将基于对话框的工程改成基于BCG的
- 浪潮通软2012年社招二期用人目录
- 10个专业汽车摄影lr预设
- 爬虫Spider 05 - 代理参数-proxies | 控制台抓包 | requests.post() | 动态加载数据抓取-Ajax
- 模块称重51单片机电子秤称重压力检测阈值报警仪系统 源码+原理图仿
- Latex 表格技巧 - 合并单元格
- Chrome浏览器扩展的写法