通过搜狗抓取微信公众号--------破解url
本文是通过关键字爬取文章
分析搜索url
https://weixin.sogou.com/weixin?query=华为&type=2&page=3
query 是我们要搜索的关键字
type 表示搜索方式,1 表示搜索公众号,2 表示搜索文章,默认是1
page 页数,不登录的情况下最多获取十页
解析搜索页面,获取文章URL
这一部分比较麻烦
我们直接解析页面拿到的文章链接来请求并不能获取文章页面,而是被发现了你是一只爬虫
这时候我们就要寄出我们的抓包小杀器,看看他这个请求到底是怎么玩儿的
抓包我们发现这个url和我们在页面看的极为相似,而且这个请求返回的url拼接完成后就是我们要的文章页面
对比这个url和页面上的url发现其实他只是在最后面多了两个参数
这个时候我们耐心寻找会发现,在页面的最下面,对这个a标签绑定了一个点击事件,点击一次这个url后执行一段js代码
这段代码的逻辑并不复杂,我用python模拟了这段代码的逻辑
url = 'https://weixin.sogou.com' + r
b = random.randint(0, 99)
a = url.index('url=')
a = url[a + 30 + b:a + 31 + b:]
url += '&k=' + str(b) + '&h=' + a
其中r就是我们从页面解析的那段请求失败的url,这段代码也只是把页面上的url加工了一下,获取一个随机数,然后通过随机数获取url的对应位置的字母,在以参数k和参数h的方式拼接在原有url后面,就组成了新的url
我们请求新url,要带header和cookie才行,就能获取文章的url了
若有清楚或者不正确的地方欢迎留言指出
通过搜狗抓取微信公众号--------破解url相关推荐
- 利用搜狗抓取微信公众号文章
微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光.搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的. 每个公众号都有一个open ...
- python公众号文章_Python 抓取微信公众号文章
起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...
- 记一次批量定时抓取微信公众号文章的实现
记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...
- Python 抓取微信公众号账号信息
搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号.通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,今天来抓取一下微信公众号的账号信息 爬虫 ...
- python简答题及答案查询公众号和软件_Python 抓取微信公众号账号信息的方法
搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号.通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,今天来抓取一下微信公众号的账号信息 爬虫 ...
- Python项目实战:抓取微信公众号账号信息
搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号.通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,今天来抓取一下微信公众号的账号信息( 爬虫 ...
- java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...
1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...
- Python实现抓取微信公众号文章
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...
- python爬取公众号历史文章_pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs)...
原标题:pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs) 大数据挖掘DT数据分析 公众号: datadw 本文爬虫代码可以通过回复本公众号关键字"公众号& ...
最新文章
- 网络共享及排错+卷影副本
- 安装 SQL Server 2008 R2 的硬件和软件要求(转)
- tensorflow教程 学习笔记 之 Eager execution 急切执行
- DLL 远程线程注入
- JDK,JRE,JVM,JIT
- 2017双11交易系统TMF2.0技术揭秘,实现全链路管理
- UVa10082 - WERTYU
- 为什么我推荐你用Ubuntu开发?
- MyVoix2.0.js 源码分析 WebSpeech与WebAudio篇
- 7个必收藏的免商用无版权的高清图片网站
- 【游戏编程扯淡精粹】TinySTL源码阅读
- VUE解决warning(Emitted value instead of an instance of Error) el-table-column v-for=item in batch问题
- 容器部署在物理机还是虚拟机上?
- 通过Python来调用Chrom浏览器,进入设定网页
- c语言打印n个连续的字符tzz,C/C++编程笔记:C语言实现连连看游戏,小白练手项目(源码分享)...
- 手把手带你领略graphql的魅力
- 《第一堂棒球课》:王牌二垒手·棒球4号位
- 远程关闭计算机提示拒绝访问权限,如何解决shutdown远程关机win10拒绝访问的问题...
- 大疆坐标系和高德地图坐标系之间转换的问题
- 高并发服务器的限制有哪些,如何提高并发量
热门文章
- 0039c语言作业答案2020,中石油华东《程序设计(C语言)》2020年春季学期在线作业【答案】...
- 齐二TK6916/20/26/32系列数控落地铣镗床简介6
- SpringBoot + JWT + Redis 开源知识社区系统
- win10系统,主机箱的前置耳麦插孔用不了,“设置——声音”麦克风或者耳机已拔出未修复,“输入设备”无插座信息,更新驱动也无效,控制面板——小图标里查不到realtek高清晰音频管理器——一招解决
- mysql 8.0.28安装教程(超简单)
- Word在目录里插入引导符(页码前的小点点)的方法
- 日志规范——转自晓风轻专栏
- MS问题汇总小结~(持续更新记录)
- 《流浪地球》硬核科技:为什么电影情节根本不可能实现?
- PyTorch 入门:训练一个深度神经网络(DNN)