微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢
S11 结束了,EDG 牛逼就完事了。
作为 Meiko 十年老粉,我看到他发了这样一条微博:
所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。
我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。
差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。
然后就是抽取分析统计了,核心的统计代码如下:
if '猫咪' in comment_content or '猫' in comment_content:vote_dict['猫咪'] = vote_dict.get('猫咪', 0) + 1
elif '露露' in comment_content or '璐璐' in comment_content:vote_dict['露露'] = vote_dict.get('露露', 0) + 1
elif '娜美' in comment_content:vote_dict['娜美'] = vote_dict.get('娜美', 0) + 1
else:vote_dict['其他'] = vote_dict.get('其他', 0) + 1
因为有一些网友可能会把露露打成璐璐,把猫咪只写成猫,所以做了一些边界 case 处理。
还有一种情况是如果评论内容同时包含露露和猫咪这两个关键词,是给露露投票还是给猫咪投票呢?我测试发现,确实有这种评论,但是只有几条,可以忽略,就不单独处理了。
把各英雄的投票数可视化如下:
最后对评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。
评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。
微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢相关推荐
- python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...
怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...
- 微博评论爬虫 | 情感分析 | 词云图展示
目录 1. 数据获取部分 实验环境 数据获取目标 抓包 PC端和移动端分析 抓取到的目标链接 分析评论信息存储位置 爬虫结果 2. 情感分析部分 数据准备 主要代码 效果 3. 词云图部分 主要代码 ...
- R语言微博评论爬虫练习
1.随意选个热点微博 2. 参考 R微博数据分析 http://blog.sina.com.cn/s/blog_9bed162b0102wu1w.html R语言实现代码 devtools::inst ...
- 爬取微博评论并提取主要关键词(一)
接到一个自然语言处理的任务,主要是爬取医疗行业微博评论并提取关键词,顺便分类.最终是要对这些评论进行自动回复,给我的不过是初级任务,那么我就拆解任务目标,一步一步来实现. 一.首先实现的是爬虫,实际上 ...
- 基于微博评论的文本情感分析与关键词提取的实战案例~
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 宣室求贤访逐臣,贾生才调更无伦. ...
- 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...
- Python笔记--菜鸟爬虫(爬微博评论)
第一次爬虫就是爬微博的评论(爬虫-只要能看就能爬) 准备工作: Python2.7(看个人习惯).FireFox浏览器(看个人习惯) Python安装什么的网上一大堆教程,我不班门弄斧了 FireFo ...
- python抓取微博评论破亿_【python】爬虫-微博评论-武大樱花雨为例 笔记
〇.前情提要 b站跟着up主 龙王山小青椒 学习爬虫. 参考: python爬虫-微博评论-武大樱花雨为例 https://www.bilibili.com/video/BV1s7411U7AS 人民 ...
- python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
最新文章
- PHP项目学习——控件
- Dao设计模式(Data Access Object)
- 白大脑比超级计算机还,和超级计算机相比,人类的大脑很弱吗
- 服务器装win10系统文档,Win10系统安装远程服务器管理的技巧
- 系统架构设计师 - 23种设计模式(GOF)
- sklearn 神经网络_机器学习100天-Day2404 循环神经网络RNN(预测时间序列)
- 万字图解Java多线程,不信你学不会!
- PDMS二次开发(五)——小试牛刀之细节整理和收尾
- SAS 学习笔记 (一) — SAS简介
- 史上最容易听错的歌词
- V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction
- python输出完全平方数_Python: 打印完全平方数
- mysql查询时间监控_监控长时间运行的查询(监控数据库性能的SQL )
- 腾讯企业版邮箱服务器类型,腾讯邮箱企业版怎样开通,企业邮箱服务器系统申请...
- ArcGIS工具 - 导出数据库结构
- 计讯物联山海步道安全管理与运维解决方案
- HMM模型 forward backward viterbi算法
- Java 学习API(一)
- 在c语言中有逻辑型变量吗,【判断题】在C语言中,虽然有逻辑运算,但没有逻辑型变量....
- 2011 Heilongjiang collegiate programming contest 【(7+1)/10】 [补完]