Python数据分析练手:分析知乎大V
知乎,可以说是国内目前最大的问答类社区。与微博、贴吧等产品不同,知乎上面的内容更多是用户针对特定的问题分享知识、经验和见解。咱们编程教室就有不少读者是从知乎上了解到我们的。
那么,知乎上都有哪些“大V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对知乎上的部分信息进行了个采集,做了一份简单的统计。
这个统计也是我们用 Python 做网站数据分析系列的一部分,是 Python 爬虫和数据可视化的典型案例。代码、详细说明文档、数据均已上传,获取方式见文末,对这方面感兴趣的朋友可下载查阅。
另外要说明的是,这个项目的代码由实训生 清风小筑 完成于今年7月,所以并非最新数据,主要是思路的学习讨论,结果仅供参考。
大V的关联
首先给大家看的是知乎上粉丝数前50用户的关系图:
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
图中的线是用户之间的相互关注的关系。这三张图的差别只在圆圈的大小上,依次分别代表:粉丝数、连入度(被图中其他人关注的数量)、连出度(关注图中其他人的数量)
比较明显的是,像知乎日报、刘看山、丁香医生这类普通用户关注较多的“机构号”,在大V中的受关注度并不高。
这张图是通过一个叫做 Gephi 的软件,基于 Python 采集下来的数据做出来的。其中圈的颜色是 Gephi 根据关联关系自动聚合的结果。(参考之前漫威角色关系分析文章)
在知乎这个案例中,“阵营”的划分并不像漫威那么明显,但可以发现机构号基本都被归在了一类,说明关注行为有一定的相似性(张佳玮躺枪)。
谁是大V
知乎的四大指标:关注、赞同、感谢、收藏。我们分别看下以不同指标排行的“头部用户”:
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
其中,张佳玮可以说是非常突出了。(这个名字好熟悉……还记得之前的虎扑分析吗?)
![](/assets/blank.gif)
![](/assets/blank.gif)
官方收录回答数,张佳玮还是遥遥领先,收录文章数也榜上有名。
如果不论质量,仅看数量的话:
![](/assets/blank.gif)
![](/assets/blank.gif)
知乎于2010年12月20日上线,到今年7月31日共3145天,轮子哥vzch平均每天要回答7个问题以上(怀疑给他发工资的是微软还是知乎……),而太平洋电脑网则平均每天发表12.8篇文章,真是有够努力!
把这几组数据合成了两张三维散点图:
![](/assets/blank.gif)
![](/assets/blank.gif)
图中选取的数据为关注数大于1万的用户。在项目里有可以交互的网页版本,可以更直观的查看这个分布图。
大V的热情在消退?
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
上面几张图是对目前关注数超10万的用户的历史发布数据进行的统计。从图上来看,2015年大V们更热衷于回答,后来则大都改去写专栏文章了。从趋势来看,似乎大V们发文的频率已不再增长。不过这并不能直接推断知乎的整体热度,也可能内容的产出更分散于不同用户了呢?这就只有知乎官方才有权威数据了。
用户爱看什么?
![](/assets/blank.gif)
![](/assets/blank.gif)
这些关注度最高专栏和收藏夹,里面有你关注的吗?
最后,这是一个以关注数超1万的用户的个人简介做出来的词云:
![](/assets/blank.gif)
不过有点尴尬,似乎大家更喜欢在简介里发自己的公众号、微信和微博呢。
以上就是我们对于知乎公开数据做的一些分析。除此之外,我们之前还做了一个定期更新的知乎大V动态排行,欢迎查看。参见本系列之前的文章:
Crossin:用python爬虫追踪知乎/B站大V排行
Crossin:JRs在看啥?- 虎扑社区用户行为分析
B站用户行为分析非官方报告
Crossin:从数据上看:谁才是漫威的绝对C位
相关代码、文档、数据已上传。获取请在公眾号(Crossin的编程教室)里回复关键字 知乎
------
一起学,走得远!
欢迎搜索:Crossin的编程教室
Python数据分析练手:分析知乎大V相关推荐
- python练手经典100例-Python 的练手项目有哪些值得推荐?
首先两点建议:最好不要写太应用的程序练手,如果你发现你写程序的大部分时间都在查库手册(或者类似的事情),那就是大家所说的"搬砖"了:要思考什么更像是知识,什么只是经验,还是那句老话 ...
- python有趣的小项目-10 个最值得 Python 新人练手的有趣项目
原标题:10 个最值得 Python 新人练手的有趣项目 作者 | Claire D. Costa 编译 | Wendy 有很多 Python 新手留言问:"Python 入门很久了,但项目 ...
- python练手经典100例-10 个最值得 Python 新人练手的有趣项目
原标题:10 个最值得 Python 新人练手的有趣项目 作者 | Claire D. Costa 编译 | Wendy 有很多 Python 新手留言问:"Python 入门很久了,但项目 ...
- python游戏制作软件_10 个最值得 Python 新人练手的有趣项目
原标题:10 个最值得 Python 新人练手的有趣项目 作者 | Claire D. Costa 编译 | Wendy 有很多 Python 新手留言问:"Python 入门很久了,但项目 ...
- python入门程序有趣例子_10 个最值得 Python 新人练手的有趣项目
原标题:10 个最值得 Python 新人练手的有趣项目 作者 | Claire D. Costa 编译 | Wendy 有很多 Python 新手留言问:"Python 入门很久了,但项目 ...
- python小白练手集合
人工智能是都要会Python吗?前两天老师一个师兄演示写神经网络,一屋子人就我连python语法都是小白马= = 这两天在网上找了一些公开课在学python,然后呢~课程有点枯燥,理论方面的有很多小花 ...
- 熬夜整理出了70个清华大佬都在用的Python经典练手项目【附源码】
我们都知道,不管学习那门语言最终都要做出实际的东西来,而对于编程而言,这个实际的东西当然就是项目啦,不用我多说大家都知道学编程语言做项目的重要性. 于是,小编熬了几个通宵,终于整理出了70个清华大佬都 ...
- Python数据分析初学之分析表格
文章目录 Python数据分析初学之分析表格 任务要求 代码实现 Python数据分析初学之分析表格 任务要求 1)使用 pandas 读取文件 data.csv 中的数据 ,创建 DataFrame ...
- 【详解】Python数据分析第三方库分析
Python数据分析第三方库分析 目录 Python数据分析第三方库分析 @常用库下载地址 1 Numpy 2 Matplotlib 3 Pandas 4 SciPy 5 Scikit-Learn 6 ...
最新文章
- Mysql是否开启binlog日志开启方法
- php hash pbkdf2,PHP hash_pbkdf2 哈希(Hash)函数
- SpringBoot多环境配置与使用
- Qt:Qt使用鼠标模拟函数mouse_event和按键模拟函数keybd_even实现网页刷新功能
- 虚拟机网络连接三种方式(桥接、NAT、主机)
- bay trail android 平板,英特尔再推9款平板专用BayTrail-T处理器
- [HDU4635] Strongly connected
- linux下usb无线网卡对比
- 基频和倍频的概念_小知识:关于倍频程
- 用Matlab批量将图片反色
- VS 2015社区版离线下载
- RAKsmart云服务器全场7折
- 有人云平台全面升级!“旧词新释”秒懂物联网云平台的奥秘
- 清理docker的overlay2日志释放磁盘空间
- 机器视觉OpenCV库基础教程(一)
- java入门习题,3000米长的绳子,每天减一半,问多少天这个绳子会小于5米?不考虑小数。
- CMake 安装教程
- python爬虫(四)爬虫的溯源(爬取mooc某个系列课程)
- BIGEMAP中打开高清卫星影像谷歌地球
- win10别人ping不通我的电脑解决方案