微博爬虫/数据分析/可视化
微博的数据分析以及可视化
最近在学习数据分析,数据挖掘以及数据可视化的内容,之前断断续续地采集了接近1亿条微博数据,还有几十万的用户的信息。所以筛选了一部分数据来分析分析。下面的内容大多以《广州发布》为例。
- 微博数量分析
- 微博时间分析
- 地域分析
- 数据可视化
《中国广州发布》是广州市互联网信息办公室的官方微博账号。截止到6月27号凌晨,一共采集了广州发布50138条微博。这里面只有很小部分是转发的,其他都是原创。
现在看看这5万多条微博的一个数据总览。
发现几个比较奇怪的地方,2013年下半年有一个节点怎么微博的转发数和评论数突然爆炸增长,然后2017年也有一个节点获得的赞数特别多。我们详细看看这两个点。
通过代码对数据筛选,可以看到2013年8月是有一个高峰,其他的月份数量还是挺接近的。再来看看8月每天的数据量。
可以看到2013年8月只是30那天出现了异常大的转发评论,其他的时候还是比较均衡。再看看8月30号那天发生了什么事,我倒是没什么印象。
原来是某一条微博造成了这个的情况。我们再来看看这条微博的内容:
这条微博获得的关注也远超其他微博,原来是投稿类的帖子,内容大概是环保征文。这里也可以获取到一个信息,市民的环保意识还是挺好的,可能征文的奖品对大家还是颇为诱惑。接下来我们看看2017年获得点赞异常的部分。
也是8月的某一条微博获得了非常高的赞数,直接把这条贴微博出来。
原来是关于暴雨的帖子,基本上每年都会带来很多话题,今年6月份刚过去的艾云尼台风也对广州乃至整个广东地区造成很大影响。这条微博还有配有图片,我们到爬虫的数据库查询出来。
这类传播正能量的微博获得大量点赞,也是正常的。未来我会采集这些微博的评论做一些情感分析,大家可以留意后续的更新内容。
不知道大家是否发现了一个现象。从某个时间段开始,微博越来越不像社交软件,变得像自媒体平台了。我们看看下面的数据。是对《广州发布》的转发/评论/点赞做每个月的平均值可视化。
可以看出,《广州发布》被转发和获得评论相对前几年是越来越少的,而点赞数越来越多。这点也印证了点赞功能是到后面才被更多的人使用。(点赞功能是后来才更新的功能,就像2015/16年左右新浪才推出的长微博[可以发超过140个字的微博帖子]),我们结合《广州发布》每天的数据看看。
图中有几条异常流量的微博(上面提到其中的两条),是不利于我们分析整体情况的,所以我们清洗掉这些数据。再看:
经历了13年的高峰之后,《广州发布》的转发和评论获得的互动是越来越少的。可能很多人看到这类新闻微博,觉得有想法的话,更多的会直接点赞。我想其他微博平台信息类的博主也应该是这个趋势。
我们再来挖掘《广州发布》的其他信息。
我们从图中可以得到一些信息:
- 每年的年初都会有个发博量下降,估计小编春节假期在好好玩耍。
- 经过了2013年的顶峰,小编每年发得微博也是逐渐趋少了,有一部分原因应该是微信公众号平台对微博造成了冲击。
我们再来看看《广州发布》的每天活跃时间:
看来小编的发微博的工作周末都要进行啊,不知道是否有加班奖励呢?6年多以来每周的平均值,可以看到小编周一是最积极的。周五有个小反弹,准备要周末休息?想想都激动!但是我觉得《广州发布》的小编应该不止一个人。继续看看小编每天的活跃情况吧。
小编早上7点就开始更新微博了,挺勤奋的嘛。中午休息过后一直奋斗到晚上。工作态度值得我们学习。再看看粉丝们的表现。
上图是一周七天所有数据的平均值,看来广大市民最活跃是小周末星期五。我们再看看小编用什么途径更新微博的:
多达二十多个发博的来源,从苹果到OPPO,从网页到活动分享。即使是网页端也有来自不同浏览器的微博标识。这也印证了我的想法,小编不是一个人。是多个人同时使用《广州发布》这个账号。上图不太直观,我们剔除数量很少的一部分,再来看看:
《微博 weibo.com》就是官网首页发布的标识,其他也主要是用电脑网页发布的。我们再看看其他的一些媒体平台。这里我挑选了2000多个带认证的博主,再来挖掘一些信息。
这些博客主要以政府机构(共青团、法院、公安局等),大型门户网站(网易、新浪等),国内知名媒体(人民日报,澎拜新闻等)以及少部分著名微博大V组成。(注意:数据量不多,数据只作参考。)
可以看到,来自政治中心北京获得的关注也是最多的。我大广东全国经济的领头羊在文化传媒上现在还是略逊一些。推荐@君临的一遍文章:广州和深圳是怎么跻身「北上广深」之列的?
再来看看这些博客的发博情况:
最后来一个上图的平均值作热力图结束:
这次的内容先到这里,下次我将会尝试做一些情感分析和文本聚类,目标依然是新浪微博。
微博爬虫/数据分析/可视化相关推荐
- 微博爬虫数据分析可视化程序设计报告
文章目录 1 需求分析 1.1 引言 1.2 功能需求 1.3运行需求 2 详细设计 2.1界面设计 2.2 程序设计 2.3 容错性 3 总结 具体代码 analysis.py keywords_n ...
- 爬虫+数据分析+可视化大作业:基于大数据的高质量电影分析报告
主要目的是为了学习Scrapy与Sklearn而不是写论文,结论是瞎扯的,轻喷求求了 目录 摘要 数据爬虫程序设计和实现 Scrapy框架 Scrapy框架简介 Scrapy的组件 Scrapy的工作 ...
- python爬虫加数据可视化软件_Python 爬虫 数据分析 可视化
简介: 想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗? 概念:LADV是 以上例子中,生成的可视化图表,均可 ...
- python3爬虫及数据分析_Python3爬虫及可视化数据分析系列图文教程——大纲目录...
本文首发于:Python3爬虫及可视化数据分析系列图文教程--大纲目录 - Python量化投资www.lizenghai.com 写在最前 最近更新:2019-03-28 本教程所有源码见文尾. ...
- 对爬虫数据分析的同学不要错过啦 数据分析数据可视化: Matplotlib
Matplotlib 是 Python 中最基本的可视化工具,官网里 (( https://matplotlib.org/) 有无数好资料,但这不是重点,本文肯定和市面上的所有讲解都不一样. 和 Nu ...
- Python爬虫+数据分析+数据可视化(分析《雪中悍刀行》弹幕)
Python爬虫+数据分析+数据可视化(分析<雪中悍刀行>弹幕) 哔哔一下 爬虫部分 代码部分 效果展示 数据可视化 代码展示 效果展示 视频讲解 福利环节 哔哔一下 雪中悍刀行兄弟们都看 ...
- 基于电影爬虫及Spark数据分析可视化设计
开发环境:PyCharm + Python3.7 + Spark + Idea + Mysql + Echart 由于我国经济的不断增长,人们的物质生活也在不断提升,因此越来越多的人观影需求增加以丰富 ...
- 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】
[大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...
- 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
最新文章
- 匿名黑客Anonymous实施的8次最强攻击
- 近期活动盘点:高级机器学习训练营、基于神经网络的代码自动生成” “开放学术图谱”、西山金融科技产业创新论坛...
- 利用基于GPU的AI模拟一个现实宇宙 仅需36分钟
- 程序员必知的操作系统知识点
- 为什么程序员不擅长估算时间?
- Ubuntu vi文本编辑器
- 之全能忙内_临沧大名山茶:喝过诸多忙肺茶,但你不知道什么是“隔年香”
- 2010 模板下载 罗斯文_俄罗斯签证办理攻略
- c语言 文件序列化,Obj-C中的NSDate 、文件读写、序列化和反序列化
- 优先级队列,代码参考范例
- windows怎么用gpu跑python程序_在GPU(windows)上运行Theano的命令
- @keyframes关键帧动画(animation)
- 用foobar将ape转换为mp3格式
- CocosCreator之层级管理器
- Unity中实现VR摄像机
- 万字长文带你快速了解并上手Testcontainers
- linux安装lsi raid卡驱动下载,【LSIRAID卡驱动下载】LSIRAID卡官方驱动程序下载
- 静态页面通过AJAX+asp实现数据查询功能
- 当他不再爱你的时候!
- 【PMP】PMBOK 笔记 第7章 项目成本管理