python爬虫：关于解决request.get和点击查看网页源代码的内容不同的问题//及大神版js加密参数获取教程指路

2024-06-15 17:06:37

首先声明：爬虫小白，虽然爬过几个网站，但是知识几乎都是实践中获取，如果以下说的不对的，请多指正，谢谢！谨此给和我一样的小白提供一个解题思路！

目录

问题背景
菜鸡版解决方案
大神版js加密参数获取教程指路
- 附：excel的下载方式

问题背景

这两天在做一个爬虫项目，要求爬取页面的附件（excel）并保存，在用分析得到的request url中的k值在源代码中搜索时，幸运的定位到网页源码中隐藏了url信息，确定了爬虫方案。如下：

照原理，我可以直接用request.get(当前的url)获取网页源码，通过正则匹配得到我想要的k值，于是这是，失败的尿性来了，原因在于，我爬到的网页源码，和这段没太大区别，可偏偏k值这段不一样！

然后我就很迷茫了，于是我去找度娘。

大家的问题大多在于爬取的网页源码和审查元素得到的结果不同，也看到大家问题的解决方案基本为selenium模拟点击（我立刻pass的这个方案，用selenium避免不了要登陆，我登陆还要验证码，鄙人还没学到这块儿呢…）和模拟JS执行过程，但我的调用过程就是下面的onclick调用上面的函数。

菜鸡版解决方案

最后在不做完不睡觉和度娘都不帮我的绝望中，我决定研究研究，我爬到的这奇奇怪怪的k值到底和原代码里的有啥区别。（以下k值两个为一组，第二个为正确k值，第一个为我爬到的k值）

不难发现，正确k值由三部分组成，第一段与我爬到的k值相关，第二段为我爬到的字段ascii+11，第三段为固定值。于是只需将我爬到的k值通过简单处理就会得到正确k值，下载成功！

大神版js加密参数获取教程指路

今天刷简书的时候意外地刷到了这篇文章，反反爬虫之js加密参数获取，文章详细地讲述了从发现加密问题到追根溯源分析js代码，最终找到加密文件的过程，看完深受启发，改天一定动手试一下！

附：excel的下载方式

excel_url=‘下载链接’
ht = requests.get(excel_url,headers=header)
with open ('text.xls','wb') as f:f.write(ht.content)

python爬虫：关于解决request.get和点击查看网页源代码的内容不同的问题//及大神版js加密参数获取教程指路相关推荐

python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别？
在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...
python爬虫之爬取多篇含有关键词的文章标题和内容
python爬虫之爬取多篇含有关键词的文章标题和内容实现的功能需要用到的库需要对html一些标签有一定的了解代码设计思想源代码功能优化 Java版本实现的功能输入想要搜索的关键字和输入 ...
Python爬虫：爬取instagram，破解js加密参数
Python爬虫:爬取instagram,破解js加密参数 instagram 是国外非常流行的一款社交网站,类似的还有像facebook.twitter,这些社交网站对于掌握时事热点.电商数据来源和 ...
从入门到入土：Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
14. python爬虫——基于scrapy框架爬取糗事百科上的段子内容
python爬虫--基于scrapy框架爬取糗事百科上的段子内容 1.需求 2.分析及实现 3.实现效果 4.进行持久化存储 (1)基于终端指令 (2)基于管道 [前置知识]python爬虫--scr ...
python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页. 详细介绍都在代码中注释了,大家可以参阅. # -* ...
新手Python爬虫教学（Request+BeautifulSoup）
新手学习Python爬虫之Request和beautifulsoup Created: Apr 13, 2020 2:45 PM 学了一下爬虫基本原理,利用request和beautiful soup ...
利用python爬虫(part1)--urllib.request模块
学习笔记文章目录网络爬虫概述定义爬虫分类爬取数据步骤爬虫请求模块常用方法 urllib.request.urlopen()方法响应对象(response)方法关于请求头 urllib ...
Python爬虫笔记——解决python 写入文件中文乱码问题
原链接: python 爬虫写入文件中文乱码问题解决分析过程根据网上的一些建议,将文件的打开编码改为 utf-8 ,结果跟本不起作用奇怪的是用notepad 打开 csv 文件竟然显示正常,看来 ...

最新文章

热门文章