python爬去新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?
啊喂,你们不要只收藏不点赞啊 = =
稍微更新一下,多说两句。
虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧。
总结一下这个模拟登陆涉及的东西:
1.用户名经过base64加密。
2.输入用户名后会进行预登陆操作。
3.密码明文与一些其它的字符串参数拼接后,使用RSA加密,再提交给服务器,其中RSA公钥和各种参数都可以从预登陆操作返回的结果中找到。
4.会出现两个跳转。
所以思路如下:
1.用base64加密用户名之后仿造一个预登陆,用正则匹配得到各项参数。
2.用上一步里得到的参数,拼接密码明文,再用RSA加密得到密文,并构造POST的form data。
3.使用构造好的form data仿造登录请求
4.用正则匹配获得跳转的目标链接。
5.为了保持登陆,用cookiejar一类的工具绑定一个cookie就行了。
======以下原答案=======
刚写完这个爬虫。。
新浪这东西做的煞是恶心。
代码和分析过程写在我blog里了。
http://shrik3.com/2016/03/25/sina-login/
[更新:我的博客改版了,以前的旧文章全部删除,如果您是在有兴趣,可以私信我一个邮箱,我把备份发送给您]
测试可以用。
有理解不对的地方欢迎聚聚们指正
。。
你说的最后那段代码,是从重定向页面中获取新的url然后继续登陆,然而少了一步喔。
python爬去新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?相关推荐
- pythonurllib新浪微博_Python 爬虫如何机器登录新浪微博并抓取内容?
啊喂,你们不要只收藏不点赞啊 = = 稍微更新一下,多说两句. 虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧. 总结一下这个模拟登陆涉及的东西: 1.用户名经过base64加密. 2.输入用 ...
- python爬取微博内容_Python 爬虫如何机器登录新浪微博并抓取内容?
最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...
- python爬去音乐_Python爬虫——分析酷我音乐网站,并爬取歌曲-Go语言中文社区
前言: 爬取数据,我们都先必须了解开发者工具的使用和网页的源代码,即Python导入第三方库的步骤. 开发者工具使用步骤: 使用F12或者Ctrl+Shirt+i打开开发者工具 说明: 1)先检查HT ...
- python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...
- python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现
这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...
- 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据
Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...
- python爬去音乐_python爬去音乐
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如 ...
- 如何运用python爬游戏皮肤_Python爬虫练习:20行Python代码爬取王者荣耀全英雄皮肤...
引言王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成. 准备工作 ...
- python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)
前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...
最新文章
- 实验三编程、编译、连接、跟踪
- Google Play Service中安全检测API的使用说明
- [微信小程序直播平台开发]___(一)介绍与流程
- .Net 中的序列化与反序列化 (转)
- matlab 多维数组申明
- oracle表回退语句,5 Oracle笔试题
- java 垂直走马灯多行,Android实现图文垂直跑马灯效果
- yii2 js加载顺序呢
- C# error CS1729: 'XXClass' does not contain a constructor that takes 0 arguments的解决方案
- python的网络应用_python 网络编程的应用模块
- JSP开发常用问题解决
- 医院耗材管理系统开发_7
- 定点运算之原码一位乘法
- 真核有参转录组测序标准分析-3
- Ubuntu18.04安装搜狗输入以及五笔输入法
- 计算机excel怎么添加实线边框,excel中单元格输入内容怎么设置自动加上实线边框...
- 51款BI产品、80种可视化工具、80张图(总有一款适合你)
- QUANT[1]:从零开始量化交易
- 软件测试实习生培训大纲
- Windows下Visual Studio Code配置Shell开发环境 (超详细图文)| 瞬间提高200%生产力