微博的数据分析以及可视化

最近在学习数据分析,数据挖掘以及数据可视化的内容,之前断断续续地采集了接近1亿条微博数据,还有几十万的用户的信息。所以筛选了一部分数据来分析分析。下面的内容大多以《广州发布》为例。

  • 微博数量分析
  • 微博时间分析
  • 地域分析
  • 数据可视化

《中国广州发布》是广州市互联网信息办公室的官方微博账号。截止到6月27号凌晨,一共采集了广州发布50138条微博。这里面只有很小部分是转发的,其他都是原创。

现在看看这5万多条微博的一个数据总览。

发现几个比较奇怪的地方,2013年下半年有一个节点怎么微博的转发数和评论数突然爆炸增长,然后2017年也有一个节点获得的赞数特别多。我们详细看看这两个点。

通过代码对数据筛选,可以看到2013年8月是有一个高峰,其他的月份数量还是挺接近的。再来看看8月每天的数据量。

可以看到2013年8月只是30那天出现了异常大的转发评论,其他的时候还是比较均衡。再看看8月30号那天发生了什么事,我倒是没什么印象。

原来是某一条微博造成了这个的情况。我们再来看看这条微博的内容:

这条微博获得的关注也远超其他微博,原来是投稿类的帖子,内容大概是环保征文。这里也可以获取到一个信息,市民的环保意识还是挺好的,可能征文的奖品对大家还是颇为诱惑。接下来我们看看2017年获得点赞异常的部分。

也是8月的某一条微博获得了非常高的赞数,直接把这条贴微博出来。

原来是关于暴雨的帖子,基本上每年都会带来很多话题,今年6月份刚过去的艾云尼台风也对广州乃至整个广东地区造成很大影响。这条微博还有配有图片,我们到爬虫的数据库查询出来。

这类传播正能量的微博获得大量点赞,也是正常的。未来我会采集这些微博的评论做一些情感分析,大家可以留意后续的更新内容。
不知道大家是否发现了一个现象。从某个时间段开始,微博越来越不像社交软件,变得像自媒体平台了。我们看看下面的数据。是对《广州发布》的转发/评论/点赞做每个月的平均值可视化。

可以看出,《广州发布》被转发和获得评论相对前几年是越来越少的,而点赞数越来越多。这点也印证了点赞功能是到后面才被更多的人使用。(点赞功能是后来才更新的功能,就像2015/16年左右新浪才推出的长微博[可以发超过140个字的微博帖子]),我们结合《广州发布》每天的数据看看。

图中有几条异常流量的微博(上面提到其中的两条),是不利于我们分析整体情况的,所以我们清洗掉这些数据。再看:

经历了13年的高峰之后,《广州发布》的转发和评论获得的互动是越来越少的。可能很多人看到这类新闻微博,觉得有想法的话,更多的会直接点赞。我想其他微博平台信息类的博主也应该是这个趋势。
我们再来挖掘《广州发布》的其他信息。

我们从图中可以得到一些信息:

  • 每年的年初都会有个发博量下降,估计小编春节假期在好好玩耍。
  • 经过了2013年的顶峰,小编每年发得微博也是逐渐趋少了,有一部分原因应该是微信公众号平台对微博造成了冲击。

我们再来看看《广州发布》的每天活跃时间:

看来小编的发微博的工作周末都要进行啊,不知道是否有加班奖励呢?6年多以来每周的平均值,可以看到小编周一是最积极的。周五有个小反弹,准备要周末休息?想想都激动!但是我觉得《广州发布》的小编应该不止一个人。继续看看小编每天的活跃情况吧。

小编早上7点就开始更新微博了,挺勤奋的嘛。中午休息过后一直奋斗到晚上。工作态度值得我们学习。再看看粉丝们的表现。

上图是一周七天所有数据的平均值,看来广大市民最活跃是小周末星期五。我们再看看小编用什么途径更新微博的:

多达二十多个发博的来源,从苹果到OPPO,从网页到活动分享。即使是网页端也有来自不同浏览器的微博标识。这也印证了我的想法,小编不是一个人。是多个人同时使用《广州发布》这个账号。上图不太直观,我们剔除数量很少的一部分,再来看看:

《微博 weibo.com》就是官网首页发布的标识,其他也主要是用电脑网页发布的。我们再看看其他的一些媒体平台。这里我挑选了2000多个带认证的博主,再来挖掘一些信息。

这些博客主要以政府机构(共青团、法院、公安局等),大型门户网站(网易、新浪等),国内知名媒体(人民日报,澎拜新闻等)以及少部分著名微博大V组成。(注意:数据量不多,数据只作参考。)

可以看到,来自政治中心北京获得的关注也是最多的。我大广东全国经济的领头羊在文化传媒上现在还是略逊一些。推荐@君临的一遍文章:广州和深圳是怎么跻身「北上广深」之列的?
再来看看这些博客的发博情况:

最后来一个上图的平均值作热力图结束:

这次的内容先到这里,下次我将会尝试做一些情感分析和文本聚类,目标依然是新浪微博。

微博爬虫/数据分析/可视化相关推荐

  1. 微博爬虫数据分析可视化程序设计报告

    文章目录 1 需求分析 1.1 引言 1.2 功能需求 1.3运行需求 2 详细设计 2.1界面设计 2.2 程序设计 2.3 容错性 3 总结 具体代码 analysis.py keywords_n ...

  2. 爬虫+数据分析+可视化大作业:基于大数据的高质量电影分析报告

    主要目的是为了学习Scrapy与Sklearn而不是写论文,结论是瞎扯的,轻喷求求了 目录 摘要 数据爬虫程序设计和实现 Scrapy框架 Scrapy框架简介 Scrapy的组件 Scrapy的工作 ...

  3. python爬虫加数据可视化软件_Python 爬虫 数据分析 可视化

    简介: 想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗? 概念:LADV是 以上例子中,生成的可视化图表,均可 ...

  4. python3爬虫及数据分析_Python3爬虫及可视化数据分析系列图文教程——大纲目录...

    本文首发于:Python3爬虫及可视化数据分析系列图文教程--大纲目录 - Python量化投资​www.lizenghai.com 写在最前 最近更新:2019-03-28 本教程所有源码见文尾. ...

  5. 对爬虫数据分析的同学不要错过啦 数据分析数据可视化: Matplotlib

    Matplotlib 是 Python 中最基本的可视化工具,官网里 (( https://matplotlib.org/) 有无数好资料,但这不是重点,本文肯定和市面上的所有讲解都不一样. 和 Nu ...

  6. Python爬虫+数据分析+数据可视化(分析《雪中悍刀行》弹幕)

    Python爬虫+数据分析+数据可视化(分析<雪中悍刀行>弹幕) 哔哔一下 爬虫部分 代码部分 效果展示 数据可视化 代码展示 效果展示 视频讲解 福利环节 哔哔一下 雪中悍刀行兄弟们都看 ...

  7. 基于电影爬虫及Spark数据分析可视化设计

    开发环境:PyCharm + Python3.7 + Spark + Idea + Mysql + Echart 由于我国经济的不断增长,人们的物质生活也在不断提升,因此越来越多的人观影需求增加以丰富 ...

  8. 【大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统】

    [大数据分析毕设之基于python爬虫的旅游大数据分析可视化系统-哔哩哔哩] https://b23.tv/z2OUTkp flask web框架,数据使用selenium模块爬取携程网获取数据,使用 ...

  9. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

最新文章

  1. 匿名黑客Anonymous实施的8次最强攻击
  2. 近期活动盘点:高级机器学习训练营、基于神经网络的代码自动生成” “开放学术图谱”、西山金融科技产业创新论坛...
  3. 利用基于GPU的AI模拟一个现实宇宙 仅需36分钟
  4. 程序员必知的操作系统知识点
  5. 为什么程序员不擅长估算时间?
  6. Ubuntu vi文本编辑器
  7. 之全能忙内_临沧大名山茶:喝过诸多忙肺茶,但你不知道什么是“隔年香”
  8. 2010 模板下载 罗斯文_俄罗斯签证办理攻略
  9. c语言 文件序列化,Obj-C中的NSDate 、文件读写、序列化和反序列化
  10. 优先级队列,代码参考范例
  11. windows怎么用gpu跑python程序_在GPU(windows)上运行Theano的命令
  12. @keyframes关键帧动画(animation)
  13. 用foobar将ape转换为mp3格式
  14. CocosCreator之层级管理器
  15. Unity中实现VR摄像机
  16. 万字长文带你快速了解并上手Testcontainers
  17. linux安装lsi raid卡驱动下载,【LSIRAID卡驱动下载】LSIRAID卡官方驱动程序下载
  18. 静态页面通过AJAX+asp实现数据查询功能
  19. 当他不再爱你的时候!
  20. 【PMP】PMBOK 笔记 第7章 项目成本管理

热门文章

  1. SpringMVC消息转换器
  2. 牛奶生产线的分类有哪些?
  3. 百度影棒安装apk方法
  4. excel高级筛选_Excel自动筛选还是高级筛选?
  5. mysql144,通过phpMyAdmin从MySQL错误144中恢复
  6. 90岁生日,稻盛和夫教会我“人生精进”的10项原则(深度好文)
  7. 疯狂Java讲义(三)
  8. Sheet.JS 使用-html版
  9. NXP(恩智浦)iMX8M Plus 处理器介绍
  10. 基础知识之----------IO流(1)