对排名前3000位博主进行数据分析
数据分析
热门博主
这里是在2017-05-20晚上爬取按照积分排名前3000位的博主,本文是在3000条博主的用户信息,23万条博主的活动信息的基础上进行数据分析的,此数据基于学习的目的,不用于商业目的;
本来打算对具体动态信息做个排名,不过考虑到可能会涉及隐私,所以放弃,全文分析均为宏观分析;
各个博主的出生地
3000位博主中,只有546位填了家乡,比例为18%;
可以看的出来,湖北和河南的人数最多,广东四川北京山东属于第二梯队;
各个博主的现居住地
3000位博主中,只有802位填了现在的居住地,比例为27%;
可以发现,这个时候,博主的工作地点变成了IT比较发达的省份,像是北京,广东,浙江,上海,四川;
各个园龄所占的人数
大部分在博客园的时间在4-12年的时间,其中5年最多
工作职位的统计
206人填了信息,比例为7%
这里取的是排名前20位的职位,其中因为描述的不同导致结果存在些许不同,但可以发现其中软件工程师居多
工作单位的统计
116人填了信息,5个腾讯,2个Autodesk,2个武汉大学,其余均不重复,其中100人在工作,16人在大学
上一次发布博客的时间
1258个日子,最近一天为2017-05-20,最远一天为2005-04-14
其中越靠后表明上一次发布博客的时间离现在越近,不过不难发现依然存在挺多的人上次发布博客的时间离现在比较远。
多少人进行了迁移(出生地跑到现居住地)
395人,此方法是按照出生地不等于现在居住地计算得出
结婚
107人填了信息,占整体比例为4%
单身比例最高,占了将近2/3,已婚次之
动态信息分布
发表话题和博客占用比例大体相当
分数平均值
以300为单位
可以发现,前300名大幅拉开和后面的差距
博客数量和分数、粉丝的关系
博客数量和分数并不是一个线性关系,表明并不是发表的博客数量越高分数就越高,不过貌似粉丝数量和分数存在些许关系。
总结
这个项目是我在工作之余花了一周的时间一变学习一边写出来的,其利用Scrapy爬虫框架来实现,过程中也走了些弯路,基本都是靠不停的查找资料来解决问题。项目并不困难,数据分析也比较简单,在后面可以加上词频分析等等,不过因为最近要开始找工作了,所以暂时要放置一段时间了。
文中如果有错误,请及时指出。
转载于:https://www.cnblogs.com/George1994/p/6892346.html
对排名前3000位博主进行数据分析相关推荐
- 大屏监控系统实战(10)-大屏展示前20个博主的排名、票数及名次相对于前一日的升降情况
一.概述 上一节我们已经把数据爬取到了数据库中并保存了起来,这章就要把数据在大屏上展示出来,先在大屏上展示前20个博主的排名.票数及名次相对于前一日的升降情况.最终实现的效果如下: 这个效果相当完美了 ...
- 【SQL开发实战技巧】系列(十四):计算消费后的余额计算银行流水累计和计算各部门工资排名前三位的员工
系列文章目录 [SQL开发实战技巧]系列(一):关于SQL不得不说的那些事 [SQL开发实战技巧]系列(二):简单单表查询 [SQL开发实战技巧]系列(三):SQL排序的那些事 [SQL开发实战技巧] ...
- 如何用DAX实现查看每个月中不同类别排名前一位,以及一个简单的svg案例
现在给大家带来的是如何用DAX实现查看每个月中不同类别的排名前一位,最终完成效果如下!!! 首先我们需要两张简单的表 基数表 和类别表 当我们创建好表之后,我们再创建一个表格,然后我们将类别表里的列值 ...
- 2011年排名前七位的Linux操作系统。
下面列出了2011年排名前七位的Linux操作系统. Ubuntu Ubuntu 是一个由全球化的专业开发团队建造的操作系统.它包含了所有您需要的应用程序:浏览器.Office 套件.多媒体程序.即时 ...
- 开源项目管理软件排名_2014年排名前5位的开源项目管理工具
开源项目管理软件排名 去年,Opensource.com涵盖了一些流行的开源项目管理工具(ProjectLibre,] project-open [和OpenProject.)我们发现这些文章对我们的 ...
- 网络监控工具 开源_排名前5位的开源网络监控工具
网络监控工具 开源 维持活动的网络是系统管理员最重要的任务之一,并且对连接的系统保持警惕对于保持网络的最佳状态至关重要. 有许多不同的方法可以使标签保持在现代网络上. 网络监视工具专门用于监视网络流量 ...
- python库排行榜_排名前6位的Python NLP库的比较
排名前6位的Python NLP库的比较 今天,自然语言处理(NLP)变得非常流行,在深度学习发展的背景下,自然语言处理(NLP)变得尤其引人注目.NLP是人工智能领域,旨在理解和提取文本中的重要信息 ...
- 谁在消费国际顶级奢侈品牌?中国城市国际顶级品牌指数排名前30位榜单 | 美通社头条...
美通社消息,2022年,全球个人奢侈品市场规模达到了2000年的3倍.其中,中国发展带来的红利尤为突出.2019年,中国在全球个人奢侈品市场的占比达到33%,新冠疫情期间中国份额虽然有所下降,但预计到 ...
- 这位博主居然说“我就是看故事也要把这知识学了”
零.写在前面 本文是从begin ..end 开始讲的.(有时间把之前的杂乱无序的笔记整合起来重新发) 牢骚:sql server 结尾很多地方不用分号 我好难受TvT! 注意:不要看封面,就觉得博主 ...
- 闲谈 | 国内AI排名前 8 位的大学,顶起!
本文来源:北京高考资讯 近日,人工智能专业作为战略新兴产业受到关注,本文整理了目前人工智能全国排名前八的大学,供家长.考生了解. 中国科学院大学 中国科学院的自动化研究所在人工智能领域的研究实力非常强 ...
最新文章
- 最新 ECSHOP v2.7.3数据表(88张表)
- FineUIMvc随笔(6)对比WebForms和MVC中表格的数据库分页
- 2.SDL游戏开发:把代码写长一点(一)
- Dirichlet分布与多项分布的共轭性
- C语言对strtok(),与strdup()介绍
- Linux搭建私有Git服务器以及ssh免密登陆配置
- native层 安卓_安卓逆向——拼xx协议java层分析
- JEECG - 基于代码生成器的J2EE智能开发框架 续一:开发环境搭建步骤
- Oracle树查询(查询所有子节点,父节点等等)_转载
- 计算机专硕报考专业代码,什么是报考专业代码 考研专业代码到底是什么意思...
- 48小时备考TOGAF经验分享
- 高通可穿戴设备平台 SDW4100 简介
- 圆运动和椭圆运动公式
- go-micro服务报错:wsasend: An existing connection was forcibly closed by the remote host
- ASO学习——《ASO优化大师》笔记
- finecms相关信息-随时更新
- matlab 分水岭法,分水岭算法Matlab实现——三种方法 | 学步园
- unity学习之动画状态切换后角色沉入地面里面
- CTFshow入门命令执行29
- 国外lead教程---EMU之SSN用不用