背景

  1. 爬取一个直播平台的信息与一个普通网站的数据
  2. 直播平台的信息有热门主播的在线人数,时常,与热门直播的礼物情况(粉丝的人物画像)

难点

  1. 打赏礼物的人物画像
  2. https
  3. wss(数据的实时性),需要模拟匿名用户的访问,某直播网站的wss数据又是二进制数据
  4. 头大的js代码,无限多,无限长

分析

  1. 一般普通数据用java jsoup来解决
  2. wss的数据需要先模拟匿名登录,拿到binary data。然后再来分析网站的js代码,进行解析。

找工具

  1. chrome 开发者工具,f12 ws选择只能看到frames在走动与我们两个互不认识的binary。
  2. wireshark,伤心本来报很大希望但是无法通过websocket方式来搜索出来,而且即时分析出来,我估计也不知道如何截取,这个后面再做研究如何使用,看到有人说直接搜websocket是可以看到的。但是通过websocket filter我真的找不到自己想要的数据。除非通过ip.addr ip.src 等等
  3. charles,无意中发现的。真如其名,charles。虽然开始也用不好,但是最后还是搞定了,下面具体说说如何使用的吧。

charles工具

  1. 先激活
// Charles Proxy License
// 适用于Charles任意版本的注册码,谁还会想要使用破解版呢。
// Charles 4.2目前是最新版,可用。
Registered Name: https://zhile.io
License Key: 48891cf209c6d32bf4
  1. 安装 ssl证书支持
help->SSL proxying->install charles  root certificate
下面这篇文章说的非常好
https://www.cnblogs.com/ceshijiagoushi/p/6812493.html
  1. 设置代理,同样是上面的文章,不过我建议使用 *:443

查看结果

  1. 在浏览器上访问你要访问的网站
  2. 普通的https网页已经在后侧可以看到内容了
  3. 同样wss的抓取也出来,但是具体的binary data。还是需要自己分析的哦

目前使数据可以抓取到,接下来就是需要对二进制数据进行分析解析,获取有价值数据。

原创文章,版权所有,禁止抄袭,违者必究!!!转载请注明出处!!!技术需要请联系3684170@qq.com.

爬虫小计(charles抓取wss数据--yy数据爬取)相关推荐

  1. python如何爬虫网页数据-如何轻松爬取网页数据?

    一.引言 在实际工作中,难免会遇到从网页爬取数据信息的需求,如:从微软官网上爬取最新发布的系统版本.很明显这是个网页爬虫的工作,所谓网页爬虫,就是需要模拟浏览器,向网络服务器发送请求以便将网络资源从网 ...

  2. 【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)

    第二篇为利用爬虫基本的requests库和正则表达式爬取喜马拉雅全站数据. 申明:本文仅做学习用. 多图警告. 目录 一.常用函数和库 二.网站结构分析 首页 https://www.ximalaya ...

  3. 知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据)

    知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据) 版本:1.0 作者: AlexTan CSDN: http://blog.csdn.net/alextan_ e-mail: alex ...

  4. 爬虫之 JS(返回非 json 数据)的爬取

    爬虫之 JS(返回非 json 数据)的爬取 写在前面的话: 查资料,看到常用浏览器的 user-agent 参考对照表,因为之前爬取百度文库的时候用到手机的请求头,所以就想把这些所有请求头爬下来,结 ...

  5. 爬虫篇——selenium(webdriver)进行用户登录并爬取数据)

    爬虫篇--selenium(webdriver)进行用户登录并爬取数据 摘要 (一)创建browser对象 (二)用户登录 (三)数据爬取 摘要 本文主要介绍了如何通过selenium使用Chorme ...

  6. 如何用python爬取图片数据_“python爬取微博图片教程“用Python爬虫爬取的图片怎么知道图片有没有水印...

    怎样用python爬新浪微博大V所有数据 我是个微博重度,工作之余喜欢刷刷timeline看看有什么新鲜事发也因此认识了高质量的原创大V,有分享技术资料的,比如好东西传送门:有时不时给你一点人生经验的 ...

  7. 零基础入门python爬虫之《青春有你2》选手信息爬取

    零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...

  8. 运用Python爬虫爬取一个美女网址,爬取美女图

    运用Python爬虫爬取一个美女网址,爬取美女图 要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...

  9. python爬取国家男女比例_Python爬取2万条相亲数据!看看中国单身男女都在挑什么...

    话不多说,我们今天就以" 世纪佳缘 "这个相亲网站为例子,爬取搜索页面当中所有的用户信息,包括"用户ID"."年龄"."城市&qu ...

  10. 爬虫入门—requests模块基础之药监企业信息爬取

    爬虫入门-requests模块基础之药监企业信息爬取 Author: Labyrinthine Leo   Init_time: 2021.02.22 Key Words: Spider.reques ...

最新文章

  1. CentOS_7 MongoDb安装使用
  2. 分秒必争域的时间同步问题[为企业部署Windows Server 2008系列十四]
  3. 没错,接单就是特简单!
  4. docker安装和配置Grafana
  5. CentOS 5.10安装Oracle 11G R2
  6. Hinton神经网络公开课10 Combining multiple neural networks to improve generalization
  7. PDF 补丁丁 0.6.0.3369 版发布(修复保存文件时文件名替代符失效的问题)
  8. python selenium在编写过程中遇到的问题记录2
  9. 倍福twincat3软件下载方式
  10. php探针 网络使用状况,PHP探针 服务器运行状况和PHP信息用的
  11. shell分隔符获取数据
  12. 12.2.1 QTcpSocket类介绍
  13. Runtime在项目中的使用场景
  14. 爬取包图网教师节海报
  15. 豪饮舍得酒,郭广昌刀口舔血
  16. Android 获取手机存储总大小,系统占用空间
  17. 夏にありがとう(向夏天致谢)-因幡晃
  18. 2019考研 | 天津大学计算机专硕复试131.25分考研经历与经验总结(复试)
  19. 扎心“我学了六个月 Python,怎么还是会找不到工作”
  20. 《AOIT shader in UE4》

热门文章

  1. 06,07年的几次重大事件
  2. 挫折中前行-aspera下载数据
  3. 深度解剖dubbo源码-知识结构图
  4. 【CE入门教程】使用Cheat Engine(CE)修改游戏“植物大战僵尸”之其他篇
  5. [Excel知识技能] 将“假“日期转为“真“日期格式
  6. linux sensor驱动,i2c,input,sysfs
  7. Python 图形界面开发哪个库好
  8. 变分自动编码器(VAE variational autoencoder)
  9. 微信小程序使用base64字体图标 (生成字体图标+将字体图标转为base64格式)
  10. Python3输出中文乱码问题解决方案(原因是print函数编码默认为cp936 GBK编码)