雄狮少年,究竟怎样,我们用实际的数据来一探究竟
最早知道这部影片的时候是在抖音上面看到的,说实在的基本上各大网红博主评价的主旋律都是会先说这是一部央视也点名“延续了优秀国漫基因”的高分作品,但是最后都会说到人物形象设计败笔的问题上面,距离这部影片上映已经有半月的时间了,到底怎么样?我今天用实际的一些数据来看个明白。
上面是我从豆瓣影评首页截的图,可以看到有17w左右的人参与了评价,整体评分呈现两极化的态势,目前的评分维持在8.3分左右的水平,不知道后期会是怎么样的走势,从目前的得分来看可以说还是一部高分作品的。
分析首先就是需要获取对应的数据,这里我之前的文章里面已经有实现好的爬虫可以直接拿来使用了,这里就不再多介绍了,由于客观限制的问题,数据没有办法放到文章里面来,这里也不再多介绍了,简单看下样例数据,如下所示:
接下来来看下情感极向分布图,如下所示:
可以看到,整体评论的两极化还是比较明显的,说明大家对这部高分作品是持有很大的质疑的。
得到了情感极向的数据后,我们设定了一个基础的阈值为0.5,高于该阈值的评论数据我们认为是对这部作品持有正向情感的,低于该阈值的评论数据我们认为是对这部作品持有负面情绪的,以此为划分依据,将原始的评论语料数据划分为两个情感极向的数据集。
我简单爬取了几百条的数据,这里对其分布进行了简单的可视化,如下所示:
这个结果让我一度觉得是处理错了,怎么正向的评论这么多呢?这个跟我在抖音里面看到的几乎清一色的负向情感完全不一样的感觉了,在检查过每个环节的处理代码没有问题后,我就继续了,这是只是单纯的基于数据来做一个直观的分析,不牵涉其他方面的因素。
做文本数据的分析首先想到的应该都会是词云可视化了吧,这里我也对雄狮少年的影评数据做了可视化,如下所示:
我一般做了词云之后都喜欢顺道做一下主题的挖掘计算,这里也有比较方便的实现,我主要都是基于LDA来直接计算的。下面是计算出来的主题结果:
一直觉得这个交互式的可视化还是很有意思的,可能跟我不懂前端开发有关系吧,一直都觉得界面、页面之类的东西都很有趣。
之后,我想基于这批数据做一个情感分析的文本分类任务,这也是老话题了,这里还是熟悉的组合w2v+机器学习模型,因为数据量也比较少,所以词向量模型还有机器学习等模型的训练都很快,这里也是考虑到数据量的问题没有去使用深度学习,不过在小样本数据集上面做二分类任务,常规的机器学习模型都是可以胜任的。
w2v的核心实现如下所示:
训练完成得到的模型如下所示:
到这里我们已经生成了所有样本数据的特征向量,之后就可以交由机器学习模型来进行训练学习和测试评估了,这里我主要是选取了决策树DT、支持向量机SVM和随机森林RF,这三种模型来进行整体对比分析。
计算结果如下所示:
{"DT": {"precision": 0.6555555555555556,"recall": 0.6861702127659575,"F1": 0.6678743961352658,"accuracy": 0.6678743961352658},"RF": {"precision": 0.9351851851851851,"recall": 0.5625,"F1": 0.5764576457645765,"accuracy": 0.5764576457645765},"SVM": {"precision": 0.42727272727272727,"recall": 0.5,"F1": 0.46078431372549019,"accuracy": 0.46078431372549019}
}
对其进行可视化如下所示:
这个感觉跟样本数据的关系比较大,正负样本太不均衡了,这里的效果显示出来DT最好了,不过我这里基本没有怎么去调参数,只是为了做简单的对比。
雄狮少年,究竟怎样,我们用实际的数据来一探究竟相关推荐
- 从电影《雄狮少年》看CG技术(一)
2019年成本仅6000万的电影<哪吒之魔童降世>成为了国漫之光,最终拿下了50亿的票房.而去年众多大咖站台的电影<雄狮少年>投资接近<哪吒>的5倍,到现在却连成本 ...
- 软件测试自学网站有哪些?不妨一探究竟
一:前言 相信各位在学习培训的时候,无论学什么,都会习惯性地找自学网站.各位在自学软件测试的时候,也不会例外.那么,软件测试学习培训网站有哪些?我们不妨一探究竟. "我们需要去哪个网站学习培 ...
- android有多个活动,Android活动一探究竟
作为Android的四大组件之一,活动最先走进我们的视野,其重要性不言而喻,今天就抽出时间来专门对Android活动一探究竟. 什么是活动 活动即Activity,是一种可以包含用户界面的组件,And ...
- 什么是大数据 究竟多大才算是大数据,大数据怎么学习?
大数据,什么是大数据呢?多大的数据叫大数据?红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据才是大数据呢,什么样的数据才是最大的呢? 如果你没有接触过大数据,那么你就 ...
- 为何要配置环境变量?带你一探究竟
一.前言 干了这么多年Java,配置环境变量都是第一步要做的,但是为什么要配置环境变量呢,又有什么用呢,今天哪吒就带你一探究竟. 二.百度百科 有事没事找百度,百度解释名词这一块做的是真的好. 1.环 ...
- 【活动报名】大数据的流向,究竟去向何处?——深圳站
2022/7/30 Data Everywhere 系列活动-深圳站 大数据的流向,究竟去向何处? 作为时代发生的必然产物,大数据正加速渗透至我们的日常生活.大数据技术不是为了搜集海量的数据,而是为了 ...
- 学习大数据的都是什么人,究竟适不适合学习大数据?
大数据发展迅速,越来越多的人认识到了大数据的重要性,学习大数据的人越来越多了,但是大数据市场仍然处于人才短缺的现象,因为企业对大数据工程师的需求太大了,已经严重的供不应求了. 大多数人会通过培训机构进 ...
- 2018中国数据科学家工资究竟是多少?(最新数据)
数据科学社群Kaggle发布了2018年即第二届数据科学/机器学习业界现状调查报告.这份调查问卷的受访者囊括了全球50多个国家的 23,859 多位从业者,相对去年增加了49%.根据他们 ...
- 初识百态.末路归正:前方迷雾已散,待我一探究竟.《一》
起源 { 本人从小非常喜欢计算机,由于我是98年的,刚好长大时计算机流行了起来,而且当时游戏正待巅峰时期.,列入[穿越火线,QQ飞车,等等....]随着对游戏的热爱, 我发现了外挂的存在.当时恍如发现 ...
- 平常人可以漂亮到什么程度?教你爬取知乎大神们的回答一探究竟!
大家好,今天才哥带大家看看知乎这个高达14.3万关注,2.6亿浏览,回答数超过1.27万的问题<平常人可以漂亮到什么程度?>. 最近呢,可能是因为写了几篇关于爬虫获取美女照片的文章的缘故? ...
最新文章
- 「DB」数据库事务的隔离级别
- 引入antd组件样式_扩大团队技术影响力,搭建团队自己的 UI 组件库
- i12单双耳切换_多种形态,切换惬意,雷柏i100蓝牙TWS耳机,支持单耳/双耳使用...
- python3 的windows下文件操作注意问题
- 华为手机下拉菜单没了_用了三年才知道华为录屏这么强大!再不会用,手机钱打水漂了...
- CSS常见的四种垂直居中的方法
- request用法_虚拟语气用法总结
- html复选框值改变后事件,javascript – 从onclick/onchange事件获取HTML值的复选框
- 一文带你初识---虚拟dom
- 【iOS-Cocos2d游戏开发之六】对触屏事件追加讲解,解决无法触发ccTouchMoved事件[重要!]...
- java8中stream中的任务拆分
- 通过示例学 Golang 2020 中文版【翻译完成】
- 小米裁员10%?官方回应:创业至今 从未裁员
- 谈谈对一些软件架构设计箴言的理解 对软件的过早地优化是万恶的根源 反设计模式案例简介...
- 多线程mute/lock_guard/unique_lock/condition_variable访问同一公共资源
- 实用多媒体技术 课程习题及解答
- MCT工具的使用说明
- LSTM神经网络图解
- biopython安装_Ubuntu中安装Biopython
- Java制作JDK8文档搜索引擎项目并部署到阿里云服务器