爬取了知乎2.2亿阅读量 有漂亮女朋友是什么体验,结果发现...
对于很多人来说,拥有一个漂亮的女朋友是一件非常幸福的事情。知乎上就有一个非常热门的话题,叫做有个漂亮女朋友是种怎样的体验?,在知乎上阅读量已经达到了2.2亿的阅读量,受到了十万多人的关注。
小编今天就带领大家去抓取并分析一下这个话题下的回答者的一些内容,感受一下拥有一个漂亮的女朋友是种怎样的体验。
01.如何爬取
对于数据的获取,我们需要构建特定的知乎数据接口,就能够获取得到回答者的回答内容。对于数据接口的获取,如下图所示:
大家只需要在开发者模式下的network中打开XHR选项,然后找到以anwsers开头的json数据内容。可以看到数据中包含了回答者的评论内容等信息,接下来大家只需要复制接口的链接,然后利用程序来向接口请求数据即可。大家可能感觉接口十分的复杂,该如何去构造呢?其实并不是特别的复杂,小编在程序中已经为大家构造好了请求链接,程序如下图所示:
程序中,通过for循环来不断的构造数据的接口,接口中包含了include、limit、offset等关键词,大家想要抓取其他回答的数据时,只需要更改不同问题的数字索引部分,例如下下述链接中的数字部分:
https://www.zhihu.com/api/v4/questions/28997505/answers?
程序通过self.get_json函数,来获取接口返回的json数据。并通过self.get_comments函数来解析json数据,提取数据。self.get_comments如下图所示:
在self.get_comments函数中,通过BeautifulSoup库来解析json数据中的html文件,从而获取回答者的回答内容,并抓取回答者上传的图片内容。同时在json数据中,可以直接解析获得回答者的姓名、性别等内容信息。
运行上述的程序后,一共得到了3600+的回答者内容信息,得到的信息如下:
02.对数据进行挖掘
在得到数据信息后,接下来我们对于大家的回答来进行简单的分析,看看从中能够得到哪些启发。
1).性别分析
在对回答内容进行抓取的时候,小编发现在回答者性别的分布中,并不只是清一色的男生,通过可视化我们来更加直观的感受一下回答者的性别分布是如何的。
程序首先通过内置库collections中的Counter类来统计回答者的性别,然后通过饼形图来进行可视化展示。
通过上图可以看到,在这个题目的回答者中,除去未知性别的回答者,虽然男生以压倒性的比例占据了绝大多数,但是女生回答者仍旧占到了8.38%的比例。
2).点赞数和评论数
我们知道,点赞和评论的数量越多,则代表了一个回答者回答内容受到了更多读者的赞同和支持。接下来,我们以点赞数量对所有的内容进行排序。看看点赞数量前十名中,点赞和评论数量的分布情况。
上图中,柱状图代表的是评论数量的分布,其纵坐标参考左侧的坐标轴,而线型图则是代表着点赞数量的分布,其纵坐标参考右侧的坐标轴。从图中可以看出,汤家云野的那个汤和郑正两位回答者获得了最多的评论数量,但是同“汤家云野的那个汤”获得高点赞数不同,”郑正“获得了较少的点赞的数量。
3).词云的分布
而针对大家的回答内容,则更能展现出来大家真实的体验和感受,我们通过词云的展示,来看一下大家的关键词都有哪些?
程序中,首先利用jieba库将大家的回答进行分词处理,然后利用stylecould库进行词云的可视化展示。
可以看到大家的词云中,关键词包含女朋友、漂亮、好看、喜欢、我们等内容,小编真的是越看越酸。
4).谁是最佳回答者
对于谁是最佳的回答者,知乎已经给出了我们答案,这个问题最上方的回答者——汤家云野的那个汤,无论从点赞数量还是评论数量,都是最多的,理应获得最佳回答者。作者非常走心的描述了自己的女朋友,不单单是外表上的美,更重要的是心灵美,多才多艺,会书法,会做菜。
5).谁是晒图狂魔
在众多的回答者中,很多人都晒出了自己和女朋友的照片,这些人里面究竟谁晒的图片最多,谁是晒图狂魔呢,一起来看看吧。
程序根据不同的回答者的名字创建专属的文件夹,然后将回答者晒的图片全部都抓取出来,并保存到了特定的文件夹中。
经过统计之后,发现名字叫速溶猩猩的用户呢,在这个问题上一共晒出了127张图片,成为了十足的晒图狂魔,至于该用户所晒得图片呢,大家可以去看一下,这里小编就不做过多的评论啦。
总结
以上就是小编今天为大家的分享,大家觉得有一个漂亮的女朋友是一种怎么样的体验呢,欢迎在下方留言~
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
年度爆款文案
1).卧槽!Pdf转Word用Python轻松搞定!
2).学Python真香!我用100行代码做了个网站,帮人PS旅行图片,赚个鸡腿吃
3).首播过亿,火爆全网,我分析了《乘风破浪的姐姐》,发现了这些秘密
4).80行代码!用Python做一个哆来A梦分身
5).你必须掌握的20个python代码,短小精悍,用处无穷
6).30个Python奇淫技巧集
7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货
8).再见Python!我要学Go了!2500字深度分析!
9).发现一个舔狗福利!这个Python爬虫神器太爽了,自动下载妹子图片
点这里,直达菜鸟学PythonB站!!
爬取了知乎2.2亿阅读量 有漂亮女朋友是什么体验,结果发现...相关推荐
- 爬取了知乎2.2亿阅读量 “有漂亮女朋友是什么体验“,结果发现...
对于很多人来说,拥有一个漂亮的女朋友是一件非常幸福的事情.知乎上就有一个非常热门的话题,叫做有个漂亮女朋友是种怎样的体验?,在知乎上阅读量已经达到了2.2亿的阅读量,受到了十万多人的关注. 小编今天就 ...
- 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据
原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
简单介绍: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API.仅仅需少量代码就可以实现一个功能强大的爬虫. 怎样将WebCollector导入项目请 ...
- Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述
Python-Selenium Webdriver+google chrome浏览器爬取中国知网的文献概述 目录 Python-Selenium Webdriver+google chrome浏览器爬 ...
- Python爬取中国知网文献、参考文献、引证文献
转载自博客园文章作为学习资料,代码及相关介绍非常详细.原文链接见Python爬取 中国知网文献.参考文献.引证文献
- HttpUnit爬取中国知网特定大学网页
继昨天使用Selenium+ChromeDriver爬取中国知网页面后,今天又想到了一些别的方法,就是HtmlUnit,作为一名萌新程序员,多写写总是好的,操蛋的是,还没想出好的爬取方法. 奉上jar ...
- Java使用Selenium+ChromeDriver 爬取中国知网
Java使用Selenium 爬取中国知网 所需Jar包 中国知网的网页结构,我就不在这里赘述了,自己去看,这里我操作的是爬取博硕论文,只抓取前十页 当Selenium无法调取ChromeDriver ...
- 学好Python爬取京东知乎价值数据
Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样的编程语言提供越来越多的优秀工具,让爬虫变得 ...
- 如何爬取了知乎用户信息,并做了简单的分析
转载请标明出处: http://blog.csdn.net/forezp/article/details/68951699 本文出自方志朋的博客 一.使用的技术栈: 爬虫:python27 +requ ...
最新文章
- 前工404见闻,让我怀疑我是不是身处东南大学……
- android源码的目录
- 使用 Eclipse 调试 Java 程序的 10 个技巧
- 部分常用算法分析总结
- Struts2中jsp page=xxx.action/jsp失效
- Nginx 配置从零开始
- sql limit子句_SQL子句解释的位置:之间,之间,类似和其他示例
- 如何用计算机求和,求和计算器
- Windows下Nginx的启动、停止等基本命令
- IEEE1588 ( PTP ) 协议简介
- STKO助力OpenSEES系列:结构模态分析以及动力特性(MDOF与等效SDOF验证)
- 图像处理中的椭圆拟合(一)
- 计算机参数含义,电脑内存条参数各有什么含义?
- DeepMind 解决蛋白质结构预测难题
- 将本地项目上传到码云,只需这几步,每个步骤都有图文
- 时域和频域的简单理解
- Elasticsearch:时间点 API
- 优化器:torch.optimizer
- c语言如何输入一篇英文文章,(急急,救命啊!c语言)输入一篇英语文章,求输出这篇文章的所有英语单词的个数。...
- Daily Life