这些文件包含完整 MovieLens 数据集中列出的所有 45,000 部电影的元数据。该数据集包含 2017 年 7 月或之前上映的电影。数据点包括演员、剧组、剧情关键词、预算、收入、海报、上映日期、语言、制作公司、国家、TMDB 投票数和投票平均值。

( cast, crew, plot keywords, budget, revenue, posters, release dates, languages, production companies, countries, TMDB vote counts and vote averages.)

该数据集还包含来自 270,000 名用户对所有 45,000 部电影的 2600 万个评分的文件。评级为 1-5 级,已从 GroupLens 官方网站获得。

该数据集还包含来自 700 个用户的 100,000 个评分的文件,其中包含 9,000 部电影的一小部分。评级为 1-5 级,已从 GroupLens 官方网站获得。

内容

该数据集由以下文件组成:

Movie_metadata.csv:主要的电影元数据文件。包含有关 Full MovieLens 数据集中的 45,000 部电影的信息。功能包括海报、背景、预算、收入、发布日期、语言、制作国家和公司。

Keywords.csv:包含我们的 MovieLens 电影的电影情节关键字。以字符串化 JSON 对象的形式提供。

Credits.csv:包含我们所有电影的演员和工作人员信息。以字符串化 JSON 对象的形式提供。

Links.csv:包含 Full MovieLens 数据集中所有电影的 TMDB 和 IMDB ID 的文件。

Links_small.csv:包含完整数据集的 9,000 部电影的小子集的 TMDB 和 IMDB ID。

Ratings_small.csv:来自 700 位用户对 9,000 部电影的 100,000 个评分的子集。

完整的 MovieLens 数据集包含 2600 万个评级和 750,000 个标签应用程序,这些应用程序来自该数据集中所有 45,000 部电影的 270,000 名用户,可在此处访问

致谢
该数据集是从 TMDB 和 GroupLens 收集的数据集合。
从 TMDB Open API 收集了电影详细信息、演职员表和关键字。本产品使用 TMDb API,但未经 TMDb 认可或认证。他们的 API 还提供对许多其他电影、演员和女演员、剧组成员和电视节目的数据的访问。您可以在这里亲自尝试。

电影链接和评分已从 GroupLens 官方网站获得。这些文件是此处提供的数据集的一部分

灵感
这个数据集是作为我第二个 Capstone 项目的一部分,用于 Springboard 的数据科学职业轨道。我想对电影数据执行广泛的 EDA 来叙述电影的历史和故事,并使用此元数据与 MovieLens 评级相结合来构建各种类型的推荐系统。

我的两本笔记本都可用作此数据集的内核:电影和电影推荐系统的故事

你可以用这个数据集做的一些事情:
根据特定指标预测电影收入和/或电影成功。哪些电影倾向于在 TMDB 上获得更高的票数和平均票数?构建基于内容和基于协同过滤的推荐引擎。

Kaggle电影数据集:movies_metadata.csv相关推荐

  1. The Movies Dataset(电影数据集)

    原文: The Movies Dataset Metadata on over 45,000 movies. 26 million ratings from over 270,000 users. T ...

  2. Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

    Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介.下载.案例应用之详细攻略 目录 RentListingInquries比 ...

  3. Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

    Dataset之HiggsBoson:Higgs Boson(Kaggle竞赛)数据集的简介.下载.案例应用之详细攻略 目录 Higgs Boson比赛简介 Higgs Boson数据集的下载 Hig ...

  4. R数据分析|可视化|dplyr|Kaggle奥运会数据集(一)

    R数据分析|可视化|dplyr|Kaggle奥运会数据集(一) 研究1896年至2016年奥运会运动员的数据集,主要指标有身高.体重.年龄.国籍.参与项目.是否获得金/银/铜牌.通过运用R软件对数据作 ...

  5. 基于Kaggle心脏病数据集的数据分析和分类预测-StatisticalLearning统计学习实验报告

    基于Kaggle心脏病数据集的数据分析和分类预测-StatisticalLearning统计学习实验报告 一.实验准备 本数据来源于kaggle,包含14个维度,303个样本,具体的变量说明如下表所示 ...

  6. ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测

    ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测 目录 输出结果 设计思路 核心代码 输出 ...

  7. ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类

    ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类 目录 输出结果 实现代码 输出结果 先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...

  8. ML之RF:基于RF算法实现案例(数据集samtrain.csv、samval.csv、samtest.csv)

    ML之RF:基于RF算法实现案例(数据集samtrain.csv.samval.csv.samtest.csv) 目录 输出结果 核心代码 参考 输出结果 核心代码 #我们对训练集采用随机森林模型,并 ...

  9. ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类

    ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类 目录 输出结果 实现代码 输出结果 先看输出结果 实现代码 # -*- coding: ut ...

  10. Python线性回归:加载共享自行车租赁数据集 BikeSharing.csv。 1. 按以下要求处理数据集 (1)分离出仅含特征列的部分作为 X 和仅含目标列的部分作为 Y。

    加载共享自行车租赁数据集 BikeSharing.csv. 按以下要求处理数据集 (1)分离出仅含特征列的部分作为 X 和仅含目标列的部分作为 Y. (2)将数据集拆分成训练集和测试集(70%和 30 ...

最新文章

  1. 第四章 遗传变异的分类
  2. 有道python网课怎么样-如何用python“优雅的”调用有道翻译?
  3. 使用Sublime Text作为Markdown编辑器
  4. springboot整合redis集群master宕机后连接超时
  5. wxWidgets 示例展示了 wxSecretStore 类的使用
  6. Swiper 在vue中的使用,loop=true获取真实index,数据更新刷新初始化swiper
  7. 《数据挖掘导论》实验课——实验七、数据挖掘之K-means聚类算法
  8. Lattice Diamond 的学习之新建工程
  9. 铁塔基站三相有功电能无线计量仪表外置互感器-安科瑞 顾月
  10. Mysql—— 内连接、左连接、右连接以及全连接查询
  11. html超链接几种写法
  12. Plonky msm的改进版Yao算法
  13. dell台式机安装centos7网卡设置
  14. 极限中0除以常数_基本不等式中常用公式百度作业帮
  15. 什么是凸函数及如何判断一个函数是否是凸函数
  16. 李一男辞职调查:走出华为的叛逆男人
  17. 借势新一轮融资 优信二手车发展将大步向前
  18. 对android小程序的结论,微信小程序引入外部字体总结(针对安卓加载缓慢问题)...
  19. 基于微信预约挂号小程序毕业设计毕设作品(8)毕业设计论文模板
  20. 前端开发与构建工具Vite

热门文章

  1. java list t 类_Java ListT 、List?、ListObject、ListE、ListU的区别
  2. Web APIs概念详解(附图解)
  3. 未在本地计算机上注册“OraOLEDB.Oracle”提供程序
  4. java多线程Lock接口简介使用与synchronized对比 多线程下篇(三)
  5. Linux 配置mail发送邮件
  6. 一个拨号上网的批处理文件
  7. leetcode 11 Contain with most water
  8. thinkphp对数据库操作有哪些内置函数
  9. 修改Gravatar生成的默认头像
  10. php绕过验证码注册,验证码被绕过的处理方法_PHP教程