前段时间写了一个各应用市场某款应用的定时爬取任务,收集应用的下载量、评价、评分等信息然后报表展现,之前一直运行正常,前两天相关人员反馈数据出现异常,第一感觉肯定是该应用市场的网页结构发生变化了。

在本地运行数据爬取任务,发现确实有个应用市场报521错误,这个错误没见过啊,开始网上各种搜,发现别人说的貌似跟我的情况不一样,没办法只能自己摸索了。

于是把资源路径直接拿出来在浏览器里面访问,居然没问题!我想是不是刚才对方的服务器挂了这会又好了,立马又把爬虫运行了一遍,结果发现是自己意淫了。。。没办法,只能F12打开开发者工具——网络,然后重新访问,http状态码200,没什么问题啊,一切正常,我就纳闷了,为什么浏览器正常、爬虫却不行,难道是服务端做了什么针对非浏览器访问的限制,顿时眼前一亮,脑海中蹦出一个关键字“cookies",然后将请求header里的参数拿来各种试,没一点效果,感觉进入了死胡同,怎么也找不着出路。。。

自我安慰着,换个浏览器试试吧。。。这一换果然换出了问题,让我发现了浏览器地址栏貌似有变化,赶紧打开fiddler,清空缓存重新访问,哈哈,终于让我逮到了,它居然请求了3次,第二次还在地址后面加上了一个参数!!第一次状态521,第二次状态302,第三次状态200并成功返回了页面,到此感觉终于有了点眉目。

于是开始分析每一次的请求,第一次访问地址没做任何修饰先排除,但是第二次请求的参数从哪来的呢(本人是做后端开发,对前端一知半解)?开始在第一次返回的header里面各种找,没发现异常,这怎么可能!想不通啊!点着点着发现一段js脚本,还是各种字符各种运算符杂乱无章,难道是这段脚本有问题?于是将此脚本摘出,模拟运行,终于得到了跳转链接!

此时所有的问题都迎刃而解。。。

转载于:https://my.oschina.net/u/2551642/blog/654732

http状态码521——记一次网页爬取相关推荐

  1. html状态码521,python爬虫 处理521状态码

    在抓取数据的时候往往可以通过状态码来判断返回结果,今天在抓取数据的时候碰到了以前没有碰到过得状态码521,输出它的爬取内容(text),发现是一些js代码.一起探讨一下如何处理521状态码. 用cha ...

  2. 静态网页爬取-Requests

    静态网页爬取-Requests import requests r=requests.get('http://www.baidu.com/') print(r.encoding) print(r.st ...

  3. Python数据分析:爬虫从网页爬取数据需要几步?

    对于数据分析师来说,数据获取通常有两种方式,一种是直接从系统本地获取数据,另一种是爬取网页上的数据,爬虫从网页爬取数据需要几步?总结下来,Python爬取网页数据需要发起请求.获取响应内容.解析数据. ...

  4. Python 与金融科技4|网页爬取上证50股票代码

    本期我们将以上证50的五十只股票为例,学习如何使用爬虫工具 Beautiful Soup 爬取网站上的表格数据并将需要的数据以 pickle 的格式保存到本地. 前言 在这个系列中,我们将共同学习如何 ...

  5. beautifulsoup网页爬虫解析_Python爬虫快速入门,静态网页爬取

    在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...

  6. Python爬虫快速入门,静态网页爬取!

    在开始之前,请确保你的电脑上已经安装好了BeautifulSoup库,可以通过在命令行中输入pip install beautifulsoup4来进行安装. 一.数据解析 在爬取之前,我们需要检测下响 ...

  7. Python爬虫: 单网页 所有静态网页 动态网页爬取

    Python爬虫: 单网页 所有静态网页 动态网页爬取 前言:所有页代码主干均来自网上!!!感谢大佬们. 其实我对爬虫还挺感兴趣的,因为我玩instagram(需要科学上网),上过IG的人都知道IG虽 ...

  8. 爬取电影资源之网页爬取篇(python)

    不知道大家平常喜不喜欢待在宿舍一个人看电影? 作为一个高龄屌丝,电影对我来说是必不可少的.平常无聊时自己一个人待在宿舍看看电影,看看书. (人闲下来就会胡思乱想,不能让寂寞侵蚀自己的内心) 其实还是喜 ...

  9. Python3 实现大众点评网酒店信息和酒店评论的网页爬取

    **作者:**Mr. Ceong 链接:http://blog.csdn.net/leigaiceong/article/details/53188454 Python3 实现大众点评网酒店信息和酒店 ...

最新文章

  1. Linux下用C语言最基本的程序开发与调试
  2. Java中ArrayList源码分析
  3. mysql-自动备份数据库服务
  4. cmake + visual studio 配置出错的解决方法
  5. linux下的shell编程
  6. DirectX11 With Windows SDK--24 Render-To-Texture(RTT)技术的应用
  7. 浅析 Linux 初始化 init 系统,第 2 部分: UpStart
  8. mysql-数据库操作-连接-创建-删除-修改编码-查询-切换
  9. tomcat 查看当前请求数_原生线程池这么强大,Tomcat 为何还需扩展线程池?
  10. 在SharePoint 2010中创建联系人Web数据库网站
  11. LinkedHashMap如何保证有序
  12. 大数据给人们生活带来的改变_大数据给我们的生活带来了哪些改变?
  13. 计算机星形拓扑结构,星型拓扑结构
  14. 点播系统加服务器加投影加音响,打造真实家庭影院 投影机+音响巧搭配
  15. 什么是java full gc_关于Java垃圾回收,你必须要知道FullGC是什么
  16. 使用C语言的七个步骤
  17. vector erase
  18. string::assign
  19. 1688关键词搜索api(附可用)
  20. 简单到出人意料的CNN图像分类策略

热门文章

  1. request参数升序排序 md5加密 防重播 header信息 java API接口调用 切片机制实现
  2. 09 线性回归及矩阵运算
  3. 落克王国经验计算机,洛克王国宠物各等级所需经验表
  4. [MFC]将基于对话框的工程改成基于BCG的
  5. 浪潮通软2012年社招二期用人目录
  6. 10个专业汽车摄影lr预设
  7. 爬虫Spider 05 - 代理参数-proxies | 控制台抓包 | requests.post() | 动态加载数据抓取-Ajax
  8. 模块称重51单片机电子秤称重压力检测阈值报警仪系统 源码+原理图仿
  9. Latex 表格技巧 - 合并单元格
  10. Chrome浏览器扩展的写法