爬虫小计(charles抓取wss数据--yy数据爬取)
背景
- 爬取一个直播平台的信息与一个普通网站的数据
- 直播平台的信息有热门主播的在线人数,时常,与热门直播的礼物情况(粉丝的人物画像)
难点
- 打赏礼物的人物画像
- https
- wss(数据的实时性),需要模拟匿名用户的访问,某直播网站的wss数据又是二进制数据
- 头大的js代码,无限多,无限长
分析
- 一般普通数据用java jsoup来解决
- wss的数据需要先模拟匿名登录,拿到binary data。然后再来分析网站的js代码,进行解析。
找工具
- chrome 开发者工具,f12 ws选择只能看到frames在走动与我们两个互不认识的binary。
- wireshark,伤心本来报很大希望但是无法通过websocket方式来搜索出来,而且即时分析出来,我估计也不知道如何截取,这个后面再做研究如何使用,看到有人说直接搜websocket是可以看到的。但是通过websocket filter我真的找不到自己想要的数据。除非通过ip.addr ip.src 等等
- charles,无意中发现的。真如其名,charles。虽然开始也用不好,但是最后还是搞定了,下面具体说说如何使用的吧。
charles工具
- 先激活
// Charles Proxy License
// 适用于Charles任意版本的注册码,谁还会想要使用破解版呢。
// Charles 4.2目前是最新版,可用。
Registered Name: https://zhile.io
License Key: 48891cf209c6d32bf4
- 安装 ssl证书支持
help->SSL proxying->install charles root certificate
下面这篇文章说的非常好
https://www.cnblogs.com/ceshijiagoushi/p/6812493.html
- 设置代理,同样是上面的文章,不过我建议使用 *:443
查看结果
- 在浏览器上访问你要访问的网站
- 普通的https网页已经在后侧可以看到内容了
- 同样wss的抓取也出来,但是具体的binary data。还是需要自己分析的哦
目前使数据可以抓取到,接下来就是需要对二进制数据进行分析解析,获取有价值数据。
原创文章,版权所有,禁止抄袭,违者必究!!!转载请注明出处!!!技术需要请联系3684170@qq.com.
爬虫小计(charles抓取wss数据--yy数据爬取)相关推荐
- python如何爬虫网页数据-如何轻松爬取网页数据?
一.引言 在实际工作中,难免会遇到从网页爬取数据信息的需求,如:从微软官网上爬取最新发布的系统版本.很明显这是个网页爬虫的工作,所谓网页爬虫,就是需要模拟浏览器,向网络服务器发送请求以便将网络资源从网 ...
- 【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)
第二篇为利用爬虫基本的requests库和正则表达式爬取喜马拉雅全站数据. 申明:本文仅做学习用. 多图警告. 目录 一.常用函数和库 二.网站结构分析 首页 https://www.ximalaya ...
- 知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据)
知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据) 版本:1.0 作者: AlexTan CSDN: http://blog.csdn.net/alextan_ e-mail: alex ...
- 爬虫之 JS(返回非 json 数据)的爬取
爬虫之 JS(返回非 json 数据)的爬取 写在前面的话: 查资料,看到常用浏览器的 user-agent 参考对照表,因为之前爬取百度文库的时候用到手机的请求头,所以就想把这些所有请求头爬下来,结 ...
- 爬虫篇——selenium(webdriver)进行用户登录并爬取数据)
爬虫篇--selenium(webdriver)进行用户登录并爬取数据 摘要 (一)创建browser对象 (二)用户登录 (三)数据爬取 摘要 本文主要介绍了如何通过selenium使用Chorme ...
- 如何用python爬取图片数据_“python爬取微博图片教程“用Python爬虫爬取的图片怎么知道图片有没有水印...
怎样用python爬新浪微博大V所有数据 我是个微博重度,工作之余喜欢刷刷timeline看看有什么新鲜事发也因此认识了高质量的原创大V,有分享技术资料的,比如好东西传送门:有时不时给你一点人生经验的 ...
- 零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
- 运用Python爬虫爬取一个美女网址,爬取美女图
运用Python爬虫爬取一个美女网址,爬取美女图 要运用到的python技术: 导入库 1.request 发送请求,从服务器获取数据 2.BeautifulSoup 用来解析整个网页的源代码 imp ...
- python爬取国家男女比例_Python爬取2万条相亲数据!看看中国单身男女都在挑什么...
话不多说,我们今天就以" 世纪佳缘 "这个相亲网站为例子,爬取搜索页面当中所有的用户信息,包括"用户ID"."年龄"."城市&qu ...
- 爬虫入门—requests模块基础之药监企业信息爬取
爬虫入门-requests模块基础之药监企业信息爬取 Author: Labyrinthine Leo Init_time: 2021.02.22 Key Words: Spider.reques ...
最新文章
- CentOS_7 MongoDb安装使用
- 分秒必争域的时间同步问题[为企业部署Windows Server 2008系列十四]
- 没错,接单就是特简单!
- docker安装和配置Grafana
- CentOS 5.10安装Oracle 11G R2
- Hinton神经网络公开课10 Combining multiple neural networks to improve generalization
- PDF 补丁丁 0.6.0.3369 版发布(修复保存文件时文件名替代符失效的问题)
- python selenium在编写过程中遇到的问题记录2
- 倍福twincat3软件下载方式
- php探针 网络使用状况,PHP探针 服务器运行状况和PHP信息用的
- shell分隔符获取数据
- 12.2.1 QTcpSocket类介绍
- Runtime在项目中的使用场景
- 爬取包图网教师节海报
- 豪饮舍得酒,郭广昌刀口舔血
- Android 获取手机存储总大小,系统占用空间
- 夏にありがとう(向夏天致谢)-因幡晃
- 2019考研 | 天津大学计算机专硕复试131.25分考研经历与经验总结(复试)
- 扎心“我学了六个月 Python,怎么还是会找不到工作”
- 《AOIT shader in UE4》
热门文章
- 06,07年的几次重大事件
- 挫折中前行-aspera下载数据
- 深度解剖dubbo源码-知识结构图
- 【CE入门教程】使用Cheat Engine(CE)修改游戏“植物大战僵尸”之其他篇
- [Excel知识技能] 将“假“日期转为“真“日期格式
- linux sensor驱动,i2c,input,sysfs
- Python 图形界面开发哪个库好
- 变分自动编码器(VAE variational autoencoder)
- 微信小程序使用base64字体图标 (生成字体图标+将字体图标转为base64格式)
- Python3输出中文乱码问题解决方案(原因是print函数编码默认为cp936 GBK编码)