【自嗨笔记#2】微博疫情舆情分析---舆情分析部分
[ 自嗨笔记#2] 微博疫情舆情分析—舆情分析部分
利用前面抓取的信息,开始分析,这里可以说都是看到大佬的文章,模仿加上自己的想象加工,确实不太了解实际业务需求,如果有业内朋友看到,欢迎帮我指正,也欢迎大家帮我出出主意,有时间会更新进文章里
Previously![ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
一、观察数据,整理
这里评论2200条非空,其他的为2257条非空,估计是用表情评论的被过滤了,其他目前看不出问题
二、建立需求
- 微博正文词云,以及评论词云
- 利用snowNLP,情感分析
- 尝试利用已有信息,挖掘深度规律
三,代码实现
- 正文词云
- 评论词云
- snowNLP分析
def snownlp_c(element):try:sn=SnowNLP(element)return round(sn.sentiments,1)except:passcomment['snownlp']=comment['评论正文'].transform(snownlp_c)-0.5 #以0.5为分界线,处理为[-0.5,0.5]的区间,0.5为正向
# snowNlp
a = comment.groupby(by=['snownlp'])['评论正文'].count().reset_index()
print(a)
其实这里用柱状图更好些
- 微博作者性别统计
a2=news.groupby(by=['性别'])['作者id'].count().reset_index()
plt.figure()
plt.pie(a2['作者id'],labels=['女','男'],labeldistance = 1.1,autopct = '%3.1f%%',shadow = False,startangle = 90,pctdistance = 0.6)
plt.title('微博作者性别统计',fontproperties='SimHei')
plt.show()
- 评论性别统计
a1=comment.groupby(by=['性别'])['id'].count().reset_index()
plt.figure()
plt.pie(a1['id'],labels=['女','男'],labeldistance = 1.1,autopct = '%3.1f%%',shadow = False,startangle = 90,pctdistance = 0.6)
plt.title('评论区性别统计',fontproperties='SimHei')
plt.show()
- 微博时间范围
max_date = news['发布时间'].max()
min_date = news['发布时间'].min()
print('时间范围',max_date,min_date)
- 发布疫情相关最多的微博id信息(前5)
n=news.groupby(by=['昵称'])['新闻id'].count().reset_index().sort_values(by='新闻id',axis=0,ascending=False).head()
print(n)
- 平均评论的时间
我在三月时做过一次,当时回复是20分钟左右,回复时间变长,可能是受到大家复工的影响
dt['互动时间']=dt['时间日期']-dt['发布时间']
print(dt['互动时间'].mean())
- 评论积极的人以及评论内容
m=comment.groupby(by='id')['评论正文'].count().reset_index().sort_values(by='评论正文',axis=0,ascending=False).head()
print(m)
# s=comment['id'].isin(m['id'])
# print(comment.loc[comment['id'].isin(m['id']),['评论正文','评论昵称','新闻id','时间日期']]) #再分组,实际效果不如for
for i in m['id']:print(comment.loc[comment['id'] == i,['评论正文','评论昵称','新闻id','时间日期']])
微博发布时间的分布
评论时间的分布
微博发布时间与影响力关系
影响力:转发数+评论数+点赞数
相关文章
[ 自嗨笔记#1] 微博疫情舆情分析—爬取部分
[ 自嗨笔记#3] 后浪 评论分析
[ 自嗨笔记#4] 百度文库付费文章-----网页分析
【自嗨笔记#2】微博疫情舆情分析---舆情分析部分相关推荐
- 【自嗨笔记#1】微博疫情舆情分析---信息爬取部分
[ 自嗨笔记#1] 微博疫情舆情分析-爬取部分 作为一个疫情时入坑的"小学生",刚刚注册了csdn,这里想和大家交流下学习心得(自己解决代码错误的太难了!),一方面:想看看大家有没 ...
- 【自嗨笔记#4】几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析
[自嗨笔记#4]几乎大多数人都会需要的功能!学会它生产力提高200% !百度文库付费文章网页分析 前几天在写报告的时候,需要引用些BD文库里的文章,但不是会员是不可以下载的.因此,萌生了研究研究它的网 ...
- 【自嗨笔记#5】2020 最新B站视频下载方法
[自嗨笔记#5]2020 最新B站视频下载方法 最近,因公司需要创办抖音号,宣传造势,我就想自己找点素材练习练习剪辑.那么,学习素材从哪里来呢!小破站!!不多说,正文开始! 先说下情况,B站的视频,音 ...
- 基于 Word2Vec 和 SVM 的微博舆情情感演化分析 论文笔记
目录 论文标题 引言 标题论文学术结构 1.相关研究综述(先前学者的研究) 2.研究方法 3.基于 Word2Vec 和 SVM 的微博情感演化分析 4.基于 Word2Vec 词相似度的舆情主体对象 ...
- vue+flask微博大数据舆情监控+情感分析可视化系统+爬虫
本文最近开发的一个项目,记录下其过程以及效果 亮点功能 (1)情感分析之舆情管理:在爬取微博数据的同时,利用senta框架提供的预模型进行情感分析,统计情感分析结果来进行某个话题/文章的舆情监控.(s ...
- vue+django 微博舆情系统源码、深度学习+舆情扩散消失分析、舆情紧急等级、属地分析、按话题、情感预测、话题评论获取、提取观点、正面负面舆情、按区域检测舆情
项目背景 315又马上要到了,现在有开始对食品安全话题的关注地提升了,因此,本文系统对微博的食品安全话题进行分析,有如下的功能 1.展示当前食品安全事件相关的热点信息以及提供根据食品关键词,食品安全类 ...
- 基于图卷积神经网络的微博疫情情感分析
一.前言 参考论文:Graph Convolutional Networks for Text Classification 官方Github源码:text_gcn 关于微博疫情情感分析,博主之前有过 ...
- 疫情可视化与舆情分析
文章目录 前言 一.数据采集 二.数据存储 三.数据分析 四. 数据可视化 1.可视化要求 1.1疫情地图 1.2新增人数折线图 1.3迁徙图 1.4词云图 1.5 情感分析图 2.可视化结果 链接 ...
- 舆情、网络舆情、舆情分析
第一章:舆情定义及实际工作中的注意事项 舆情是"舆论情况"的简称,是指在一定的社会空间内,围绕中介性社会事件的发生.发展和变化,作为主体的民众对作为客体的社会管理者.企业.个人及其 ...
最新文章
- asp.net 利用多表联合查询进行汇总统计
- java 代码块的作用_Java核心(三):代码块的作用
- java中arges.length_java中的args.length
- java安全编码指南之:文件IO操作
- java.lang.reflect.Constructor
- leetcode617. 合并二叉树
- 快速理解binary cross entropy 二元交叉熵
- [react] react16的reconciliation和commit分别是什么?
- php给留言分配id_简单实现PHP留言板功能
- 三分钟带你分清Mysql 和Oracle之间的误区
- SpringBoot 配置 注入(@value @ConfigurationProperties)
- 1、Fiddler 打断点 bpu
- 怎么用计算机算全勤奖,全勤奖计算与发放细则
- Web GIS多种方式发布动态地图服务及显示(1)
- Axure 7.0教程_小楼作品(十六)多值单变量的页面传值
- 《Qt 5/PyQt 5实战指南》目录
- Java-Aspose实现上传Excel、Word转换为PDF并进行下载
- 项目管理-项目范围说明书
- 关于ChartControl的绑定数据源使用
- 相关系数excel_数学建模笔记——相关系数