本文是通过关键字爬取文章

分析搜索url

https://weixin.sogou.com/weixin?query=华为&type=2&page=3

query  是我们要搜索的关键字

type  表示搜索方式,1 表示搜索公众号,2 表示搜索文章,默认是1

page 页数,不登录的情况下最多获取十页

解析搜索页面,获取文章URL

这一部分比较麻烦

我们直接解析页面拿到的文章链接来请求并不能获取文章页面,而是被发现了你是一只爬虫

这时候我们就要寄出我们的抓包小杀器,看看他这个请求到底是怎么玩儿的

抓包我们发现这个url和我们在页面看的极为相似,而且这个请求返回的url拼接完成后就是我们要的文章页面

对比这个url和页面上的url发现其实他只是在最后面多了两个参数

这个时候我们耐心寻找会发现,在页面的最下面,对这个a标签绑定了一个点击事件,点击一次这个url后执行一段js代码

这段代码的逻辑并不复杂,我用python模拟了这段代码的逻辑

url = 'https://weixin.sogou.com' + r
b = random.randint(0, 99)
a = url.index('url=')
a = url[a + 30 + b:a + 31 + b:]
url += '&k=' + str(b) + '&h=' + a

其中r就是我们从页面解析的那段请求失败的url,这段代码也只是把页面上的url加工了一下,获取一个随机数,然后通过随机数获取url的对应位置的字母,在以参数k和参数h的方式拼接在原有url后面,就组成了新的url

我们请求新url,要带header和cookie才行,就能获取文章的url了

若有清楚或者不正确的地方欢迎留言指出

通过搜狗抓取微信公众号--------破解url相关推荐

  1. 利用搜狗抓取微信公众号文章

    微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光.搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的. 每个公众号都有一个open ...

  2. python公众号文章_Python 抓取微信公众号文章

    起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...

  3. 记一次批量定时抓取微信公众号文章的实现

    记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...

  4. Python 抓取微信公众号账号信息

    搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号.通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,今天来抓取一下微信公众号的账号信息 爬虫 ...

  5. python简答题及答案查询公众号和软件_Python 抓取微信公众号账号信息的方法

    搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号.通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,今天来抓取一下微信公众号的账号信息 爬虫 ...

  6. Python项目实战:抓取微信公众号账号信息

    搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号.通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,今天来抓取一下微信公众号的账号信息( 爬虫 ...

  7. java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...

    1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...

  8. Python实现抓取微信公众号文章

    本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...

  9. python爬取公众号历史文章_pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs)...

    原标题:pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs) 大数据挖掘DT数据分析 公众号: datadw 本文爬虫代码可以通过回复本公众号关键字"公众号& ...

最新文章

  1. 网络共享及排错+卷影副本
  2. 安装 SQL Server 2008 R2 的硬件和软件要求(转)
  3. tensorflow教程 学习笔记 之 Eager execution 急切执行
  4. DLL 远程线程注入
  5. JDK,JRE,JVM,JIT
  6. 2017双11交易系统TMF2.0技术揭秘,实现全链路管理
  7. UVa10082 - WERTYU
  8. 为什么我推荐你用Ubuntu开发?
  9. MyVoix2.0.js 源码分析 WebSpeech与WebAudio篇
  10. 7个必收藏的免商用无版权的高清图片网站
  11. 【游戏编程扯淡精粹】TinySTL源码阅读
  12. VUE解决warning(Emitted value instead of an instance of Error) el-table-column v-for=item in batch问题
  13. 容器部署在物理机还是虚拟机上?
  14. 通过Python来调用Chrom浏览器,进入设定网页
  15. c语言打印n个连续的字符tzz,C/C++编程笔记:C语言实现连连看游戏,小白练手项目(源码分享)...
  16. 手把手带你领略graphql的魅力
  17. 《第一堂棒球课》:王牌二垒手·棒球4号位
  18. 远程关闭计算机提示拒绝访问权限,如何解决shutdown远程关机win10拒绝访问的问题...
  19. 大疆坐标系和高德地图坐标系之间转换的问题
  20. 高并发服务器的限制有哪些,如何提高并发量

热门文章

  1. 0039c语言作业答案2020,中石油华东《程序设计(C语言)》2020年春季学期在线作业【答案】...
  2. 齐二TK6916/20/26/32系列数控落地铣镗床简介6
  3. SpringBoot + JWT + Redis 开源知识社区系统
  4. win10系统,主机箱的前置耳麦插孔用不了,“设置——声音”麦克风或者耳机已拔出未修复,“输入设备”无插座信息,更新驱动也无效,控制面板——小图标里查不到realtek高清晰音频管理器——一招解决
  5. mysql 8.0.28安装教程(超简单)
  6. Word在目录里插入引导符(页码前的小点点)的方法
  7. 日志规范——转自晓风轻专栏
  8. MS问题汇总小结~(持续更新记录)
  9. 《流浪地球》硬核科技:为什么电影情节根本不可能实现?
  10. PyTorch 入门:训练一个深度神经网络(DNN)