(点击上方蓝字,快速关注我们)

来源:一别丶经年

my.oschina.net/zhanglikun/blog/1845888

小爬怡情,中爬伤身,强爬灰灰。爬虫有风险,使用请谨慎,可能是这两天爬豆瓣电影爬多了,今天早上登录的时候提示号被封了(我用自己帐号爬的,是找死呢还是在找死呢 ...),好在后面发完短信后又解封了,^_^。

之前的文章中,已把电影短评数据装进了Mongo中,今天把数据取出来简单分析一下,当下最火的做法是进行词频统计并生成词云,今天说的就是这个。

读取 Mongo 中的短评数据,进行中文分词

不知道什么原因,我实际爬下来的短评数据只有1000条(不多不少,刚刚好),我总觉得有什么不对,但我重复爬了几次后,确实只有这么多。可能是我爬虫写的有什么不对吧,文末附源码链接,有兴趣的去看看, 欢迎拍砖(轻拍)。

中文分词部分,默认分词效果已经非常好了,我未添加自定义字典,这里感谢一下 结巴 的作者

对分词结果取 Top50 生成词云

也感谢一下 word_cloud 的作者,^_^

生成词云效果

看来网上关于 我不是药神 vs 达拉斯 的争论很热啊。关于词频统计就这些,代码中也会完成一些其它的分析任务(其实都是一些很简单的任务,纯练手用),后续会持续更新。

其它分析任务

点赞数 Top10

  1. author = 忻钰坤, date = 2018-07-04 00:00:00, vote = 28129, comment = “你敢保证你一辈子不得病?”纯粹、直接、有力!常常感叹:电影只能是电影。但每看到这样的佳作,又感慨:电影不只是电影!由衷的希望这部电影大卖!成为话题!成为榜样!成为国产电影最该有的可能。

  2. author = 沐子荒, date = 2018-07-03 00:00:00, vote = 27237, comment = 王传君所有不被外人理解的坚持,都在这一刻得到了完美释放。他不是关谷神奇,他是王传君。 你看,即使依旧烂片如云,只要还有哪怕极少的人坚持,中国影视也终于还是从中生出了茁壮的根。 我不是药神,治不好这世界。但能改变一点,总归是会好的。

  3. author = 凌睿, date = 2018-06-30 00:00:00, vote = 18304, comment = 别说这是“中国版《达拉斯买家俱乐部》”了,这是中国的真实事件改编的中国电影,是属于我们自己的电影。不知道就去百度一下“陆勇”,他卖印度抗癌药的时候《达拉斯买家俱乐部》还没上映呢。所以别提《达拉斯买家俱乐部》了,只会显得你无知。(别私信我了,我800年前就知道《达拉斯》也是真事改编)

  4. author = 徐若风, date = 2018-06-06 00:00:00, vote = 16426, comment = 放豆瓣语境下,是部时至今日终于拍出来的国产“高分韩国电影”——拿现实题材拍商业类型片,社会性意义摆在那,群戏也处理得相当不错。对我们国家而言,这样的电影多一部是一部,走一步是一步。

  5. author = 桃桃淘电影, date = 2018-06-19 00:00:00, vote = 13337, comment = 最大的病,其实是穷病。真的被感动了,整体都很成熟,也有些许韩片的影子。几个演员表演都非常出色。可看性和内在的表达都不错。这个世界最荒诞在于,越贴近真实,真实越荒诞。人这一生,太不易了。最后,王传君,加油哦!

  6. author = 远世祖, date = 2018-06-30 00:00:00, vote = 9102, comment = 文牧野眼睛太毒了,观众的笑点、泪点、痛点被他牢牢抓住,徐峥现在不拼演技开始掏心炸肺放脱自我了,药物在中国绝对是个“不可说”,但这个电影说了它能说的,也不显山不漏水的说了它所不能说的,讲的是现实,但看过电影之后才会明白其实是超现实,2018最佳!

  7. author = 影志, date = 2018-06-19 00:00:00, vote = 7076, comment = “今后都会越来越好吧,希望这一天早点来”口罩成为符号,不是雾霾,而是人性的仪式,结尾竟然看到《辛德勒名单》一样的救赎。通俗感人,上海电影节首映哭倒一片,基于真实事件改编的社会意义加分,或许《我不是药神》之于中国,就像《摔跤吧爸爸》之于印度吧…能看到就不错。“其实只有一种病:穷病”

  8. author = Noodles, date = 2018-07-03 00:00:00, vote = 6926, comment = 人生建议:别买零食,吃不下的。

  9. author = 哪吒男, date = 2018-06-25 00:00:00, vote = 6211, comment = 最喜欢王传君的表演啊,几乎所有泪点都给他了!!而他曾经的同伴们,下月继续拿《爱情公寓》电影版面对观众。这个圈子里还是有不爱赚快钱的年轻演员,真好。

  10. author = 开开kergelen, date = 2018-07-04 00:00:00, vote = 5549, comment = 小时候路过一家药店,门口的对联写着“只愿世间无疾病,何愁架上药染尘”

15 天评论量分布、走势

15天评论量分布图

15天评论量走势图

工程源码,欢迎 Star / Fork

  • https://gitee.com/zlikun/python-crawler-douban-movie

【关于投稿】

如果大家有原创好文投稿,请直接给公号发送留言。

① 留言格式:
【投稿】+《 文章标题》+ 文章链接

② 示例:
【投稿】《不要自称是程序员,我十多年的 IT 职场总结》:http://blog.jobbole.com/94148/

③ 最后请附上您的个人简介哈~

看完本文有收获?请转发分享给更多人

关注「Python开发者」,提升Python技能

使用 Python 分析《我不是药神》豆瓣电影短评相关推荐

  1. python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评

    目的:爬取豆瓣[红海行动]电影的首页短评 步骤: 1.使用BeautifulSoup解析网页 soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂 ...

  2. python爬取豆瓣短评_爬取并简单分析豆瓣电影短评

    导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...

  3. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  4. python爬虫豆瓣电影短评_豆瓣Python爬虫:500条电影短评

    豆瓣电影短评总数多少不一,但是在短评区只能显示500条评论. 例如<囧妈>,评论数达到117120条. (当我打开爬到的评论时,还以为自己代码有问题,检查代码未发现问题.用手机登录豆瓣AP ...

  5. 使用Python爬取不同类别的豆瓣电影简介

    使用Python爬取不同类别的豆瓣电影简介 之前做过一点文本分类的工作,从豆瓣上爬取了不同类别的数千条电影的简介. 爬取目标 我们爬取的目标是 豆瓣影视,打开豆瓣网,随便点击一部电影,即可看到电影的介 ...

  6. 爬取豆瓣电影短评并使用词云简单分析top50

    先使用进程池爬取豆瓣电影短评 import requests import re import random import time import pandas as pd from pymongo ...

  7. 使用Python分析《我不是药神》豆瓣电影短评

    2019独角兽企业重金招聘Python工程师标准>>> 小爬怡情,中爬伤身,强爬灰灰.爬虫有风险,使用请谨慎,可能是这两天爬豆瓣电影爬多了,今天早上登录的时候提示号被封了(我用自己帐 ...

  8. Python | 使用 Python 分析《我不是药神》豆瓣电影短评

    作者:一别丶经年 来源:见文末 小爬怡情,中爬伤身,强爬灰灰.爬虫有风险,使用请谨慎,可能是这两天爬豆瓣电影爬多了,今天早上登录的时候提示号被封了(我用自己帐号爬的,是找死呢还是在找死呢 ...),好 ...

  9. Python实战之如何爬取豆瓣电影?本文教你

    爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...

最新文章

  1. Android笔记:Fragment与Activity之间的交互,onAttach,退出最后一个 fragment
  2. python导入xlsxwriter要安装什么吗_Python 模块:XlsxWriter 的使用
  3. 修改mac的hosts文件
  4. 你知道Linux和Unix的区别吗
  5. linux 优雅重启进程,apache2 重启、停止、优雅重启、优雅停止
  6. 工期日历天计算器_天津实地告诉你:房建项目是怎样保节点,抢工期的?
  7. docker镜像和容器的导出导入
  8. 两个栈实现队列+两个队列实现栈----java
  9. Kaldi AMI数据集脚本学习5---AMI mono phone文件 40.mdl分析
  10. 哨兵2号L1C数据下载及预处理
  11. K8S学习之helm
  12. 参加神州英才执行力培训课程感悟
  13. ARM Cortex 详解
  14. g suite_什么是G Suite?
  15. 无线路由器怎么连接移动wifi来使用
  16. video.js播放rtmp视频
  17. 提交SVN时出现目录obstructed的解决办法·
  18. iPhone4 iOS 5.1.1 越狱之后必装的插件
  19. Leetcode 1022:从根到叶的二进制数之和(超详细的解法!!!)
  20. 理解设计模式——工厂模式

热门文章

  1. springboot启动spring.profiles.active和spring.profiles.include影响的区别
  2. R语言随笔-COG计算及绘图
  3. 使用QQ账号,新浪微博账号登录第三方应用
  4. 罗斌_赢在中国第三赛季1080榜单 (2007/09/26 18:59)
  5. 爬取图片并保存到本地
  6. 怎么赚钱比较快?想赚钱就要学会这些!
  7. Python click包详解,简单易用的命令行传入参数
  8. 美国人打电话时最常用的句子
  9. 网狐荣耀6701,6801(二) 开发环境搭建与编辑
  10. 愚人节恶搞:楠哥凡客体广告