Kaggle入门——电影案例数据分析
数据集
1. 数据集介绍
本项目用到的数据集IMDB-Movie-Data是Kaggle平台上的项目TMDB(The Movie Database),主要为美国2006-2016年间的电影作品。
2. 数据集下载
下载地址
由于Kaggle平台是外网可能会出现下载较慢等问题,可以直接从下面下载
下载链接
提取码:MNSW
3. 导入数据
#文件的路径
path = "./data/IMDB-Movie-Data.csv"
#读取文件
movie = pd.read_csv(path)
数据基本信息
1. 数据集形状
问题1:如何获取电影数据中评分的平均分,导演的人数等信息
1. mean(a, axis, dtype)
- np.unique():去重
观察数据我们可以发现,会出现一个导演执导多部电影的情况,所以需要对导演列去重;
问题2:数据可视化电影信息
1. 创建画布
plt.figure(figsize=(20, 8), dpi=80)
2. 绘制直方图
api:matplotlib.pyplot.hist(x, bins=None)
x:需要传递的参数
bins:组距
plt.hist(movie["Rating"].values,bins=20)
2.1 添加轴刻度
# 增加x轴刻度
max_ = movie["Rating"].max()
min_ = movie["Rating"].min()x1 = np.linspace(min_,max_,21)
print(x1)
# 添加x1刻度
plt.xticks(x1)
2.2 添加网格
# 增加网格
plt.grid()
3. 显示图像
问题三: 统计电影分类genre情况并数据可视化
1. 以前5行数据为例,观察genre信息
如上图所示,我们可以发现,Genre列下的每一行数据包含了多个电影类别,却是以一个字符串的形式存储的,这样不好筛选类别;
2. 切割字符串
可以考虑用“,”进行字符串分割,使得每一个类别是一个单独的字符串;
3. 遍历字符串并去重
j 指向的是每一行的数据,i 指向的是每行数据中的每个类别,相当于双重for循环嵌套,最后值赋值给i ;
4. 构建一个全为0的DataFrame,行为电影名,列为各个电影分类
创建列表:
pd.DataFrame(data=None, index=None, columns=None)
生成全0数组:
np.zeros(shape, dtype)
5. 电影类别划分,以0/1描述
使用ix进行下标和名称组合索引
data.ix[0:4, [‘open’, ‘close’, ‘high’, ‘low’]]
for i in range(1000):genre_zero.ix[i,temp_list[i]] = 1# 获取第i行中temp_list中的所有类,并置为1
6. 数据可视化
求和降序排列
柱状图显示
genre_zero.sum().sort_values(ascending=False) .plot(kind="bar",figsize=(20,8))
Kaggle入门——电影案例数据分析相关推荐
- 【视频课】超口碑王圣元的Python课程,基础入门+金融案例+数据分析全套!
在人工智能和深度学习领域,Python语言是必须掌握的,几乎所有的开源框架都基于Python接口,数据获取与整理需要用到Python,市面上Python教程众多,但良莠不齐,我们联合<王的机器& ...
- Kaggle入门,看这一篇就够了
转载地址:https://zhuanlan.zhihu.com/p/25686876 之前发表了这篇关于 Kaggle 的专栏,旨在帮助对数据科学( Data Science )有兴趣的同学们更好的了 ...
- python编程入门与案例详解-quot;Python小屋”免费资源汇总(截至2018年11月28日)...
原标题:"Python小屋"免费资源汇总(截至2018年11月28日) 为方便广大Python爱好者查阅和学习,特整理汇总微信公众号"Python小屋"开通29 ...
- kaggle 入门:逻辑回归应用之Kaggle泰坦尼克之灾
经典又兼具备趣味性的Kaggle案例泰坦尼克号问题 kaggle入门--逻辑回归应用之kaggle泰坦尼克之灾 原文连接:https://blog.csdn.net/han_xiaoyang/arti ...
- 关于Kaggle入门,看这一篇就够了
这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需 ...
- 关于Kaggle入门
博客转载至:https://blog.csdn.net/bbbeoy/article/details/73274931 这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data ...
- Kaggle入门和学习资源
官网:https://www.kaggle.com/ 转载自:https://zhuanlan.zhihu.com/p/25686876 也可以看看:https://zhuanlan.zhihu.co ...
- python爬虫实战——猫眼电影案例
python爬虫实战--猫眼电影案例 ·背景 笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...
- Pandas项目实战1——好莱坞百万级电影评论数据分析
文章目录 好莱坞百万级电影评论数据分析 Pandas 知识点 任务需求 1.导入所需库 2.导入数据 读取user 读取Movie 读取RATINGS 3. 数据合并 4.平均分较高电影 5. 不同性 ...
最新文章
- 人工智能影响未来娱乐的31种方式
- 关于java中普通代码块、构造代码块与静态代码块
- 手写自己的MyBatis框架-Configuration
- linux编译避免污染源码分离,如何避免linux上的系统标准C/C++库?
- 修改Linux中的用户名
- HDU - 4497 GCD and LCM 数论gcd
- 相机成像原理_照相机、摄影机的成像原理
- php 类名 属性6,php基础知识(类中属性和方法练习)--2018年9月6日14:01:15
- 如果你不懂备案,那我简单点跟你说
- CNCF Weekly:OCM 成为 CNCF 沙箱项目
- Web的未来:语义网
- Java类与类,类与接口,接口与接口关系
- 2017年十大移动应用开发的测试工具
- JAVA 同步方法和同步代码块的区别是什么?
- typora 公式对齐_让 Markdown 写作更简单 Typora 完全使用指南
- RapidMiner
- html设计渐变背景,HTML网页设计之div渐变背景色
- android 小米手机播放短小音频无声音问题
- GOLANG工厂模式、简单工厂模式、抽象工厂模式、创建者模式
- 小试ildasm,ilasm,ilspy
热门文章
- IDEA背景色设置为黑色界面
- 测试一个显示器有拖影的软件,游戏娱乐测试:拖影、延迟都是问题
- python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目
- linux的网卡排序,linux 按mac排序分配网卡名称
- 【Unity学习笔记】b站Unity架构课Unity3D 商业化的网络游戏架构(高级/主程级别)
- oracle12c 创建新用户报错ORA-65096:公用用户名或角色名无效”解决方法
- 标自然段的序号格式_自然段标序号是什么意思
- 【黑科技】钉钉自动打卡
- 谷歌排行榜接入---独立类都给你,教你直接用
- 傅首尔的金句,听她说人生。