大数据文摘投稿作品

作者:丁卓非

《流浪地球》又火了一把!

说实话,这次火的有点突然。原因也很简单:一些群众不服《流浪地球》在豆瓣评分,纷纷跑到了App Store给豆瓣差评,同时安卓端也被攻陷。

这次豆瓣可谓受到了知乎和微博的两路夹击,两个平台的人民大众对豆瓣进行了“道德”的批判和无情的鞭挞。

豆瓣事件霸榜知乎

暂且不论是否有“黑幕”交易,此次争端的根本在于《流浪地球》这部电影到底好不好看。

文摘菌小规模的获取了豆瓣的影评数据,让我们来看看用户对《流浪地球》到底如何评价。

数据的获取

影评数据来源于豆瓣。但是豆瓣的反爬机制实在精致,大量爬取数据还会有法律风险,所以就小规模获取了600条数据。高分评价、中等评价和低分评价,各自占了200条,对各个分数段的评价做到平等对待。

代码链接:

https://github.com/zmddzf/wandering_earth

数据到手了,我们应该怎么分析这些影评数据呢?按照惯例,词云图肯定不能少。为了对每一分数段的影评数据进行深入分析,了解大家的态度,就需要绘制三张词云图。

词云图虽好,但是能够获得的信息还是和有限的,那接下来就要考虑一些其他的黑科技了,毕竟是对一部科幻作品进行分析,手段也要科幻一点。想了半天,决定使用LDA(Latent Dirichlet Allocation)文档主题生成模型,去对这些影评数据进行分析。

LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。影评虽然不多,但是用起来也不是不行。通过LDA提取topic,我们就可以根据关键词对这些主题进行提炼,能够把三个分数段的影评很好的聚集起来。

词云图分析

让我们先来看一下高分评价的词云图,这里展示的词是top100的高频词汇。“国产”、“好莱坞”、“刘慈欣”、“原著”、“特效”等词喜上榜,可见好评人士认为这部改编自刘慈欣原著的国产电影能够媲美好莱坞大片的水平。

“硬核”、“亲情”也值得注意,硬核科幻加上情感元素,也是好评人士好评的原因。“鼓励”一词体现了好评人士对国产科幻电影的期望,可能潜藏着对片中bug的宽容。

中评认识相对严格,这些词汇可以被概括维以下几点:1.对吴京的不满;2.对剧情故事人物尴尬的不满;3.对原著改编的不满。这三大不满,可能是这些人给与中评的原因。这几个原因是分可能有些主观。

差评词云图中的“台词”、“演技”、“煽情”、“吴京”、“价值观”、“尴尬”等词让人深思。给了差评的观众可能是从专业的严格的视角对这部片子进行了技术层面的剖析得出了负责的评论,也可能是因为对吴京的偏见造成了低分,也可能是因为价值观的不服和做出的差评。

LDA主题分析

这张图是LDA分析出来的结果,先来介绍一下这张图表示的意思。右边的这张图,每个气泡表示一个主题,气泡的大小代表主题出现的频率,气泡之间的距离代表每个主题之间的接近性,距离越近主题越相似。右上方的lambda表示词语和主题的相关性,越接近1说明该词语出现的越频繁,越接近0说明越特殊,我在后面的分析中选择lambda为0.6,取一个折中值进行分析。

这个主题我总结为:演技、故事、台词、人物和煽情尴尬。这个主题代表了第一个泡泡,就是上图中的泡泡1。当然,对主题的概括,不同的人可能有不同的解读。

这个是主题2,总结为:《流浪地球》是媲美好莱坞的国产科幻大片,开启了中国科幻元年,意义深远。毕竟特效做成这个级别,宇宙观也大致营造起来了。

这个主题总结为:吴京战狼翻版,为了儿子毁灭空间站,逻辑实在受不了。这个主题相对来讲对吴京有偏见,但是对剧情表达的情怀的分析还是有些道理。

以上就是基于词云和LDA主题模型,对《流浪地球》影评数据分析。毕竟是加入了主观评价,所以还是有偏差的,对这部电影看法如何可以在留言区写下你的评价。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31562039/viewspace-2629909/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31562039/viewspace-2629909/

霸榜知乎,谴责豆瓣,数据分析告诉你《流浪地球》到底好看么?相关推荐

  1. 巴西队提前出线,预定大力神杯?数据分析告诉你,到底谁才是冠军

    2022年卡塔尔世界杯的第一轮小组赛,已经在众多惊诧.悲伤.惊喜的情绪中结束,而仅仅是第一轮的小组比赛,不断爆出的冷门就足以使人大跌眼镜了: 连续34场世界大赛不败的潘帕斯雄鹰--阿根廷,1-2负于世 ...

  2. 这些一直霸榜的程序员书你知道是哪几本吗?每本豆瓣评分8.0以上

    不知道爱读书的程序员们有没有发现,每年出版好多新书,但不管有多少新书出版,这几本都会一直在榜单上霸榜一个月.二个月.三个月.一年--优秀的程序员书架上都放那么几本,你有哪几本? 书单 1.数学之美 第 ...

  3. Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?

    [CSDN 编者按]程序员刷豆瓣也要刷出技术感,本文爬取豆瓣 TOP250 告诉你这些书"热门"在哪里!案例分析之外,重在梳理编写爬虫的逻辑和链路关键点,手把手教你形成自己编写爬虫 ...

  4. 9月编程排行榜新鲜出炉霸榜还得是它~

    Tiobe编程排行榜可能会迟到,但不会缺席,各大编程语言在9月有什么变化呢?一睹为快: 9月Tiobe编程排行榜前20名 9月Tiobe编程排行榜Top10趋势 素材来源:https://www.ti ...

  5. 连续10年霸榜第一?程序员「最常用」的编程语言是它?

    近日,StackOverflow 发布了<2022年度开发者调查报告>,了解的程序员朋友们应该知道,StackOverflow 年度开发者调查,是面向全球开发者进行的规模最大.最全面的一次 ...

  6. 9月编程排行榜新鲜出炉!霸榜还得是它!

    Tiobe编程排行榜可能会迟到,但不会缺席,各大编程语言在9月有什么变化呢?跟播妞一睹为快: 9月Tiobe编程排行榜前20名 9月Tiobe编程排行榜Top10趋势 素材来源:https://www ...

  7. CBNet和DetectoRS:COCO数据集霸榜模型

    点击蓝字  关注我们 作者丨张佳程@知乎 来源丨https://zhuanlan.zhihu.com/p/146447810 整理 | 极市平台 公众号 CBNet和DetectoRS -- COCO ...

  8. 常年霸榜 Amazon 数据结构与算法领域 TOP3

    今天的主角是以下三本书中的第一本和第三本: 第一本是<程序员面试金典>,第二本是<算法导论>,第三本是<Python数据结构与算法分析>,中文版都已经由国内出版社引 ...

  9. 霸榜18年,作者连续20年获得微软MVP,这本SQL书凭什么成为畅销经典

    说到 SQL ,大多数人都不陌生,不管你是 Java .C++ 还是 .NET 开发人员,工作中你都要编写 SQL 查询.由于数据库是现代 Java 或者 Web 应用程序中不可或缺的组成部分,拥有良 ...

最新文章

  1. [leedcode 118] Pascal's Triangle
  2. springboot部署war包为什么tomcat会启动两次
  3. cv2.circle函数
  4. MHA故障切换和在线手工切换原理
  5. 吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议
  6. java运行时异常的特点是什么_Java运行时异常和非运行时异常
  7. 自动感光调节LED灯亮度C语言程序,单片机PWM调节LED灯亮度
  8. 二进制文件更新程序_APR 6.17程序文件更新
  9. do case php,PHP 规范之编程规范
  10. python consul
  11. table 条数过大优化_MySQL 数据库优化,看这篇就够了 | 不长不短,2000 字小结
  12. ubuntu自动加载硬盘分区
  13. 最透彻的关于“随机数种子”和“伪随机数”的产生原理
  14. FTPClient删除linux文件夹,使用ftp读取文件夹中的多个文件,并删除
  15. c语言 鼠标宏,鼠标宏设置软件下载 Mini Mouse Macro(鼠标宏设置工具) v7.2.0.0 免费安装版 下载-脚本之家...
  16. python实现计算器功能、输入加减乘除、不是就跳出_使用Python实现计算器功能
  17. Linux 中的 -rwxr-xr-x 权限代表什么意思 Linux 中的权限
  18. iOS本机号码一键登录
  19. 【Kaggle】 Russia房产价格预测top1%(22/3270)方案总结
  20. JZ77 按之字形顺序打印二叉树

热门文章

  1. 对要学习编程人员的忠告
  2. 《职业形象与商务礼仪》
  3. 静态LSP与动态LSP实验解析(MPLS)
  4. 高大上网站布局的三个技巧
  5. 安全灵活,华为云桌面成为数字化办公最佳搭档
  6. 计算机外观保养的建议,网际电脑如何建议客户您怎样保养电脑
  7. 基于云开发的二手书交易微信小程序
  8. 未动科技与地平线达成战略合作,共推全场景智能驾驶加速落地
  9. 如何驯服野生论文 | EndNote
  10. 浙里办APP对接常见问题