数据集

1. 数据集介绍

本项目用到的数据集IMDB-Movie-Data是Kaggle平台上的项目TMDB(The Movie Database),主要为美国2006-2016年间的电影作品。

2. 数据集下载


下载地址
由于Kaggle平台是外网可能会出现下载较慢等问题,可以直接从下面下载
下载链接
提取码:MNSW

3. 导入数据

#文件的路径
path = "./data/IMDB-Movie-Data.csv"
#读取文件
movie = pd.read_csv(path)

数据基本信息

1. 数据集形状


问题1:如何获取电影数据中评分的平均分,导演的人数等信息

1. mean(a, axis, dtype)

  1. np.unique():去重

观察数据我们可以发现,会出现一个导演执导多部电影的情况,所以需要对导演列去重;

问题2:数据可视化电影信息

1. 创建画布

plt.figure(figsize=(20, 8), dpi=80)

2. 绘制直方图

api:matplotlib.pyplot.hist(x, bins=None)
x:需要传递的参数
bins:组距

plt.hist(movie["Rating"].values,bins=20)

2.1 添加轴刻度

# 增加x轴刻度
max_ = movie["Rating"].max()
min_ = movie["Rating"].min()x1 = np.linspace(min_,max_,21)
print(x1)
# 添加x1刻度
plt.xticks(x1)

2.2 添加网格

# 增加网格
plt.grid()

3. 显示图像

问题三: 统计电影分类genre情况并数据可视化

1. 以前5行数据为例,观察genre信息

如上图所示,我们可以发现,Genre列下的每一行数据包含了多个电影类别,却是以一个字符串的形式存储的,这样不好筛选类别;

2. 切割字符串

可以考虑用“,”进行字符串分割,使得每一个类别是一个单独的字符串;

3. 遍历字符串并去重

j 指向的是每一行的数据,i 指向的是每行数据中的每个类别,相当于双重for循环嵌套,最后值赋值给i ;

4. 构建一个全为0的DataFrame,行为电影名,列为各个电影分类

创建列表:
pd.DataFrame(data=None, index=None, columns=None)
生成全0数组:
np.zeros(shape, dtype)

5. 电影类别划分,以0/1描述

使用ix进行下标和名称组合索引
data.ix[0:4, [‘open’, ‘close’, ‘high’, ‘low’]]

for i in range(1000):genre_zero.ix[i,temp_list[i]] = 1#  获取第i行中temp_list中的所有类,并置为1


6. 数据可视化

求和降序排列

柱状图显示

genre_zero.sum().sort_values(ascending=False) .plot(kind="bar",figsize=(20,8))

Kaggle入门——电影案例数据分析相关推荐

  1. 【视频课】超口碑王圣元的Python课程,基础入门+金融案例+数据分析全套!

    在人工智能和深度学习领域,Python语言是必须掌握的,几乎所有的开源框架都基于Python接口,数据获取与整理需要用到Python,市面上Python教程众多,但良莠不齐,我们联合<王的机器& ...

  2. Kaggle入门,看这一篇就够了

    转载地址:https://zhuanlan.zhihu.com/p/25686876 之前发表了这篇关于 Kaggle 的专栏,旨在帮助对数据科学( Data Science )有兴趣的同学们更好的了 ...

  3. python编程入门与案例详解-quot;Python小屋”免费资源汇总(截至2018年11月28日)...

    原标题:"Python小屋"免费资源汇总(截至2018年11月28日) 为方便广大Python爱好者查阅和学习,特整理汇总微信公众号"Python小屋"开通29 ...

  4. kaggle 入门:逻辑回归应用之Kaggle泰坦尼克之灾

    经典又兼具备趣味性的Kaggle案例泰坦尼克号问题 kaggle入门--逻辑回归应用之kaggle泰坦尼克之灾 原文连接:https://blog.csdn.net/han_xiaoyang/arti ...

  5. 关于Kaggle入门,看这一篇就够了

    这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data Science)有兴趣的同学们更好的了解这个项目,最好能亲身参与进来,体会一下学校所学的东西和想要解决一个实际的问题所需 ...

  6. 关于Kaggle入门

    博客转载至:https://blog.csdn.net/bbbeoy/article/details/73274931 这次酝酿了很久想给大家讲一些关于Kaggle那点儿事,帮助对数据科学(Data ...

  7. Kaggle入门和学习资源

    官网:https://www.kaggle.com/ 转载自:https://zhuanlan.zhihu.com/p/25686876 也可以看看:https://zhuanlan.zhihu.co ...

  8. python爬虫实战——猫眼电影案例

    python爬虫实战--猫眼电影案例 ·背景   笔者上一篇文章<基于猫眼票房数据的可视化分析>中爬取了猫眼实时票房数据,用于展示近三年电影票房概况.由于数据中缺少导演/演员/编剧阵容等信 ...

  9. Pandas项目实战1——好莱坞百万级电影评论数据分析

    文章目录 好莱坞百万级电影评论数据分析 Pandas 知识点 任务需求 1.导入所需库 2.导入数据 读取user 读取Movie 读取RATINGS 3. 数据合并 4.平均分较高电影 5. 不同性 ...

最新文章

  1. 人工智能影响未来娱乐的31种方式
  2. 关于java中普通代码块、构造代码块与静态代码块
  3. 手写自己的MyBatis框架-Configuration
  4. linux编译避免污染源码分离,如何避免linux上的系统标准C/C++库?
  5. 修改Linux中的用户名
  6. HDU - 4497 GCD and LCM 数论gcd
  7. 相机成像原理_照相机、摄影机的成像原理
  8. php 类名 属性6,php基础知识(类中属性和方法练习)--2018年9月6日14:01:15
  9. 如果你不懂备案,那我简单点跟你说
  10. CNCF Weekly:OCM 成为 CNCF 沙箱项目
  11. Web的未来:语义网
  12. Java类与类,类与接口,接口与接口关系
  13. 2017年十大移动应用开发的测试工具
  14. JAVA 同步方法和同步代码块的区别是什么?
  15. typora 公式对齐_让 Markdown 写作更简单 Typora 完全使用指南
  16. RapidMiner
  17. html设计渐变背景,HTML网页设计之div渐变背景色
  18. android 小米手机播放短小音频无声音问题
  19. GOLANG工厂模式、简单工厂模式、抽象工厂模式、创建者模式
  20. 小试ildasm,ilasm,ilspy

热门文章

  1. IDEA背景色设置为黑色界面
  2. 测试一个显示器有拖影的软件,游戏娱乐测试:拖影、延迟都是问题
  3. python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目
  4. linux的网卡排序,linux 按mac排序分配网卡名称
  5. 【Unity学习笔记】b站Unity架构课Unity3D 商业化的网络游戏架构(高级/主程级别)
  6. oracle12c 创建新用户报错ORA-65096:公用用户名或角色名无效”解决方法
  7. 标自然段的序号格式_自然段标序号是什么意思
  8. 【黑科技】钉钉自动打卡
  9. 谷歌排行榜接入---独立类都给你,教你直接用
  10. 傅首尔的金句,听她说人生。