摘要:微信、知乎、新浪等主流网站的模拟登陆爬取方法。

网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬,比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题,爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容,很花时间。

是不是一定要自己动手去实现每一个网站的模拟登陆方法呢,从效率上来讲,其实大可不必,已经有前人替我们造好轮子了。

最近发现一个神库,汇总了数十个主流网站的模拟登陆方法:

  • 知乎

  • 微信网页版登录并获取好友列表

  • Bilibili

  • Facebook

  • 无需身份验证即可抓取Twitter前端API

  • 微博网页版

  • QQZone

  • CSDN

  • 淘宝

  • Baidu

  • 果壳

  • JingDong 模拟登录

  • 163mail

  • 拉钩

  • 豆瓣

  • Baidu2

  • 猎聘网

  • Github

  • 爬取图虫相应的图片

  • 网易云音乐

  • 糗事百科

这些网站基本采用的是直接登录或者 selenium+webdriver 方式。每一个网站都有完整的模拟登陆代码,拿来就可以用到自己的爬虫中。

下面我们来测试一下。

先说说很难爬的「知乎」,假如我们想爬取知乎主页的 HTML 内容,就必须要先登陆才能爬,不然看不到这个界面。下面来简单梳理一下流程。

知乎需要手机号才能注册登陆。为了方便测试,可以随便找个手机号,手机号到哪儿去找呢,我上周写的那篇文章就发挥作用了。文章里介绍了一个免费电话号码网站,用上面的手机号可以成功注册。

文章传送门:两个神网站保护你的隐私

顺利登录后就可以进入主页了。

下面,我们用这个库提供的代码来模拟登陆,输出主页 HTML 内容作测试。操作很简单,只需要输入手机号、密码和验证码就可以了。

成功登陆后,接下来就可以做一些有意思的事了。比如曾有人爬取所有知乎账号的信息,分析了知乎用户群体画像。

是不是有点意思。

再来看看微信。用上面的微信代码可以把全部微信好友信息爬取下来,比如:昵称、性别、地域、个性签名。接着可以分析一下你的朋友圈是什么样的,应该会很有趣。

还可以爬 B 站:

还可以爬链家租房信息:

还有很多实用有趣的内容,就不一一罗列了,感兴趣的话可以试试

爬过这些网站才算会爬虫相关推荐

  1. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  2. python爬取10个网站_十个Python爬虫武器库示例,十个爬虫框架,十种实现爬虫的方法!...

    一般比价小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步 加载问题.相对比较大型的需求才使用框架,主要是便于管理以及扩展等. 1.Scr ...

  3. 在anaconda下创建我的第一个scrapy爬虫——爬取dmoz网站某一网址下的目录的链接名称以及链接地址...

    这里我用的python工具是anaconda. 1.首先创建一个scrapy工程: 打开anaconda promt命令行(注意这里不是使用cmd打开windows下的命令行),进入到需要创建工程的目 ...

  4. js rsa解密中文乱码_python解析JS爬取漫画网站--动态爬虫

    我前两天无聊,鬼灭之刃第一季完结了,我暂时没啥动漫看,就想着看看鬼灭之刃的漫画,找了半天,找一个叫漫画堆的网站 鬼灭之刃​www.manhuadui.com 网页版的还可以,但是我当时拿手机在看,翻一 ...

  5. python爬虫案例——根据网址爬取中文网站,获取标题、子连接、子连接数目、连接描述、中文分词列表

    全栈工程师开发手册 (作者:栾鹏) python教程全解 其中使用到了urllib.BeautifulSoup爬虫和结巴中文分词的相关知识. 调试环境python3.6 # 根据连接爬取中文网站,获取 ...

  6. python爬取电影网站存储于数据库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)...

    前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...

  7. python爬网站的题库_Python零基础爬虫教程(实战案例爬取电影网站资源链接)

    前言 好像没法添加链接,文中的链接只能复制到浏览器查看了 这篇是我写在csdn的,那里代码格式支持更好,文章链接 https://blog.csdn.net/d497465762/article/de ...

  8. 爬虫之selenium爬取斗鱼网站

    爬虫之selenium爬取斗鱼网站 示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(s ...

  9. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

最新文章

  1. EasyUI 系列之二 第一个EasyUI页面
  2. 英语单词 voltage simulation synthesize junction asynchronous mega optimize
  3. Tomcat 中文乱码 设置UTF-8编码 问题解决办法
  4. java io操作_Java IO 操作
  5. 【评论】为什么我的工资最低!
  6. 芯片巨头们2019年的AI芯片之争会如何?
  7. linux下修改max_user_processes和open_file的最大值
  8. 聊聊用于特征处理的tsfresh
  9. Linux下弹出CDROM的程序(参考网上程序)
  10. Jmeter进阶之性能测试响应结果保存到本地
  11. mysql error 28,MySQL错误:Got error 28 from storage engine
  12. C++ primer: C++标准库中vector类模板
  13. ballerina 学习二十六 项目docker 部署 运行(二)
  14. Maven 设置本地仓库的地址
  15. 特殊情形的Riemann引理
  16. 一句“哭什么哭”,说得好
  17. 10年经验17张图带你进入gitflow企业项目代码版本管理的最佳实践
  18. 教你在电脑中学会视频格式批量转换
  19. 原装win10下安装双系统win7
  20. 计算机网络教程第五版|微课版 - 第五章 运输层 - 重要概念【补充】

热门文章

  1. 涉密系统集成甲乙资质区别
  2. 在线AI智能写春联工具
  3. 数字化转型成功的四个支柱
  4. 真实经历:中国移动抢市场的卑劣手段
  5. WPScan基本使用
  6. 让运维工程师不再蓝瘦、香菇
  7. vant weapp 下拉_小程序动端组件库Vant Weapp的使用
  8. 机器人机床上下料项目
  9. 算法炒房三月亏20多亿!房地产巨头大翻车:房价水太深,AI也把握不住?
  10. 计算机应用基础的认识和计划,计算机应用基础学习计划..doc