S11 结束了,EDG 牛逼就完事了。

作为 Meiko 十年老粉,我看到他发了这样一条微博:

所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。

我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等关键词,每一条评论出现一次 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。

差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。

然后就是抽取分析统计了,核心的统计代码如下:

if '猫咪' in comment_content or '猫' in comment_content:vote_dict['猫咪'] = vote_dict.get('猫咪', 0) + 1
elif '露露' in comment_content or '璐璐' in comment_content:vote_dict['露露'] = vote_dict.get('露露', 0) + 1
elif '娜美' in comment_content:vote_dict['娜美'] = vote_dict.get('娜美', 0) + 1
else:vote_dict['其他'] = vote_dict.get('其他', 0) + 1

因为有一些网友可能会把露露打成璐璐,把猫咪只写成猫,所以做了一些边界 case 处理。

还有一种情况是如果评论内容同时包含露露和猫咪这两个关键词,是给露露投票还是给猫咪投票呢?我测试发现,确实有这种评论,但是只有几条,可以忽略,就不单独处理了。

把各英雄的投票数可视化如下:

最后对评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。

评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。

微博评论爬虫解决 meiko 之问,S 11 冠军皮肤选猫咪还是选露露呢相关推荐

  1. python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...

    怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...

  2. 微博评论爬虫 | 情感分析 | 词云图展示

    目录 1. 数据获取部分 实验环境 数据获取目标 抓包 PC端和移动端分析 抓取到的目标链接 分析评论信息存储位置 爬虫结果 2. 情感分析部分 数据准备 主要代码 效果 3. 词云图部分 主要代码 ...

  3. R语言微博评论爬虫练习

    1.随意选个热点微博 2. 参考 R微博数据分析 http://blog.sina.com.cn/s/blog_9bed162b0102wu1w.html R语言实现代码 devtools::inst ...

  4. 爬取微博评论并提取主要关键词(一)

    接到一个自然语言处理的任务,主要是爬取医疗行业微博评论并提取关键词,顺便分类.最终是要对这些评论进行自动回复,给我的不过是初级任务,那么我就拆解任务目标,一步一步来实现. 一.首先实现的是爬虫,实际上 ...

  5. 基于微博评论的文本情感分析与关键词提取的实战案例~

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 宣室求贤访逐臣,贾生才调更无伦. ...

  6. 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析

    前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...

  7. Python笔记--菜鸟爬虫(爬微博评论)

    第一次爬虫就是爬微博的评论(爬虫-只要能看就能爬) 准备工作: Python2.7(看个人习惯).FireFox浏览器(看个人习惯) Python安装什么的网上一大堆教程,我不班门弄斧了 FireFo ...

  8. python抓取微博评论破亿_【python】爬虫-微博评论-武大樱花雨为例 笔记

    〇.前情提要 b站跟着up主 龙王山小青椒 学习爬虫. 参考: python爬虫-微博评论-武大樱花雨为例 https://www.bilibili.com/video/BV1s7411U7AS 人民 ...

  9. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

最新文章

  1. PHP项目学习——控件
  2. Dao设计模式(Data Access Object)
  3. 白大脑比超级计算机还,和超级计算机相比,人类的大脑很弱吗
  4. 服务器装win10系统文档,Win10系统安装远程服务器管理的技巧
  5. 系统架构设计师 - 23种设计模式(GOF)
  6. sklearn 神经网络_机器学习100天-Day2404 循环神经网络RNN(预测时间序列)
  7. 万字图解Java多线程,不信你学不会!
  8. PDMS二次开发(五)——小试牛刀之细节整理和收尾
  9. SAS 学习笔记 (一) — SAS简介
  10. 史上最容易听错的歌词
  11. V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction
  12. python输出完全平方数_Python: 打印完全平方数
  13. mysql查询时间监控_监控长时间运行的查询(监控数据库性能的SQL )
  14. 腾讯企业版邮箱服务器类型,腾讯邮箱企业版怎样开通,企业邮箱服务器系统申请...
  15. ArcGIS工具 - 导出数据库结构
  16. 计讯物联山海步道安全管理与运维解决方案
  17. HMM模型 forward backward viterbi算法
  18. Java 学习API(一)
  19. 在c语言中有逻辑型变量吗,【判断题】在C语言中,虽然有逻辑运算,但没有逻辑型变量....
  20. 2011 Heilongjiang collegiate programming contest 【(7+1)/10】 [补完]

热门文章

  1. Vue中img动态绑定图片的地址
  2. 微信小程序 设置 backgroundColor 无效的问题
  3. 7月1日天刀服务器维护,天涯明月刀公测版本全服更新 7月1日维护公告
  4. 1、QQ装机部落---腾讯软件
  5. 朗科实习期间心得笔记(四)
  6. java信息清洗程序_网页内容清洗
  7. linux下c语言聊天室程序,纯C语言Socket实现聊天室
  8. 男生的眼泪、女生永远不懂纯属伤感
  9. rust储物箱怎么带走_rust建築物扣血 | 手游网游页游攻略大全
  10. shutdown命令详解