首先声明:爬虫小白,虽然爬过几个网站,但是知识几乎都是实践中获取,如果以下说的不对的,请多指正,谢谢!谨此给和我一样的小白提供一个解题思路!

目录

  • 问题背景
  • 菜鸡版解决方案
  • 大神版js加密参数获取教程指路
    • 附:excel的下载方式

问题背景

这两天在做一个爬虫项目,要求爬取页面的附件(excel)并保存,在用分析得到的request url中的k值在源代码中搜索时,幸运的定位到网页源码中隐藏了url信息,确定了爬虫方案。如下:

照原理,我可以直接用request.get(当前的url)获取网页源码,通过正则匹配得到我想要的k值,于是这是,失败的尿性来了,原因在于,我爬到的网页源码,和这段没太大区别,可偏偏k值这段不一样!

然后我就很迷茫了,于是我去找度娘。

大家的问题大多在于爬取的网页源码和审查元素得到的结果不同,也看到大家问题的解决方案基本为selenium模拟点击(我立刻pass的这个方案,用selenium避免不了要登陆,我登陆还要验证码,鄙人还没学到这块儿呢…)和模拟JS执行过程,但我的调用过程就是下面的onclick调用上面的函数。

菜鸡版解决方案

最后在不做完不睡觉和度娘都不帮我的绝望中,我决定研究研究,我爬到的这奇奇怪怪的k值到底和原代码里的有啥区别。(以下k值两个为一组,第二个为正确k值,第一个为我爬到的k值)

不难发现,正确k值由三部分组成,第一段与我爬到的k值相关,第二段为我爬到的字段ascii+11,第三段为固定值。于是只需将我爬到的k值通过简单处理就会得到正确k值,下载成功!

大神版js加密参数获取教程指路

今天刷简书的时候意外地刷到了这篇文章,反反爬虫之js加密参数获取,文章详细地讲述了从发现加密问题到追根溯源分析js代码,最终找到加密文件的过程,看完深受启发,改天一定动手试一下!

附:excel的下载方式

excel_url=‘下载链接’
ht = requests.get(excel_url,headers=header)
with open ('text.xls','wb') as f:f.write(ht.content)

python爬虫:关于解决request.get和点击查看网页源代码的内容不同的问题//及大神版js加密参数获取教程指路相关推荐

  1. python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别?

    在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...

  2. python爬虫之爬取多篇含有关键词的文章标题和内容

    python爬虫之爬取多篇含有关键词的文章标题和内容 实现的功能 需要用到的库 需要对html一些标签有一定的了解 代码设计思想 源代码 功能优化 Java版本 实现的功能 输入想要搜索的关键字和输入 ...

  3. Python爬虫:爬取instagram,破解js加密参数

    Python爬虫:爬取instagram,破解js加密参数 instagram 是国外非常流行的一款社交网站,类似的还有像facebook.twitter,这些社交网站对于掌握时事热点.电商数据来源和 ...

  4. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  5. 14. python爬虫——基于scrapy框架爬取糗事百科上的段子内容

    python爬虫--基于scrapy框架爬取糗事百科上的段子内容 1.需求 2.分析及实现 3.实现效果 4.进行持久化存储 (1)基于终端指令 (2)基于管道 [前置知识]python爬虫--scr ...

  6. python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例

    以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...

  7. 新手Python爬虫教学(Request+BeautifulSoup)

    新手学习Python爬虫之Request和beautifulsoup Created: Apr 13, 2020 2:45 PM 学了一下爬虫基本原理,利用request和beautiful soup ...

  8. 利用python爬虫(part1)--urllib.request模块

    学习笔记 文章目录 网络爬虫概述 定义 爬虫分类 爬取数据步骤 爬虫请求模块 常用方法 urllib.request.urlopen()方法 响应对象(response)方法 关于请求头 urllib ...

  9. Python爬虫笔记——解决python 写入文件中文乱码问题

    原链接: python 爬虫写入文件中文乱码问题解决 分析过程 根据网上的一些建议,将文件的打开编码改为 utf-8 ,结果跟本不起作用 奇怪的是用notepad 打开 csv 文件竟然显示正常,看来 ...

最新文章

  1. 一网打尽当下NoSQL类型、适用场景及使用公司
  2. js从0开始构思表情插件
  3. 学习python需要什么基础-要学Python编程,需要什么样的基础呢?想找这方面工作...
  4. 硬件安全(一) 概述
  5. event auto模式的问题
  6. 兼容最新PS2021 Raya Pro 5 for Mac——值得推荐的PS终极数字混合扩展面板
  7. 使用SharePoint 2010 母版页
  8. Linux卸载jdk
  9. 29. PHP 错误控制
  10. 分布式配置中心-Disconf入门指南
  11. 计算机三级数据库要安装什么软件,计算机三级数据库技术题库app
  12. rgb的原理以及应用简介
  13. 八类网线和七类网线的区别_八类网线你用过吗?与六类、七类等网线有啥区别?...
  14. 三国演义人物词频统计 -- Python
  15. 中国移动通信互联网短信网关接口协议及相关下载
  16. linux下twm切换gn,检测快速用户切换Linux
  17. video标签和videojs配置(vue视频弹窗组件)
  18. 为什么刹车热了会失灵_急!我的刹车为什么突然不管用了?
  19. python设置刻度间隔不等_Matplotlib绘图遇到时间刻度就犯难?现在,一次性告诉你四种方法...
  20. CVPR2020/UDA/图像翻译-Cross-domain Correspondence Learning for Exemplar-based Image Translation基于范例的跨域对应

热门文章

  1. 如何做好水果店数据分析,水果店统计方法
  2. 专业的后期制作音频编辑器Adobe Audition for Mac 14.2.0
  3. 从千年虫,闰年虫,闰秒虫看测试数据设计
  4. Matlab 并行计算及GPU计算
  5. linux运行彩虹猫,在 Linux 命令行中观看彩虹猫来稍事休息
  6. html div左中右布局,求助css。 一个div包含两个div,左右布局,左边css宽30%,右边div宽70%。高度均自...
  7. 可以使用计算机处理涉密文件,涉密软盘进行格式化处理后,可以降低密级使用。()...
  8. 东北师范大学电子信息专硕(02)方向22年真题回忆版
  9. “软件测试易就业、高薪资”骗局,多点真诚、少点套路
  10. python四级考试_Python统计四六级考试的词频