Rmarkdown对电影数据集进行统计分析
- 任务一
- 读入电影数据.csv数据集,将其命名为a,尝试使用summary函数查看数据总体情况。重点查看缺失情况,如果有缺失,请将缺失数据所在行全部删除(提示:你可能需要检索一些处理缺失数据的函数)。展示票房最高和最低记录的观测。
- 任务二
- 根据上映月份新生成一个变量叫做dangqi,其中12月、1月和2月归为贺岁档;7、8、9归为暑期档;3、4归为普通档;5、6归为黄金1档;10、11归为黄金2档;最后对档期进行统计。
- 任务三
- 将导演年代为30和40的统一合并为”50以下”,合并之后,更改导演年代的因子水平,使其变为:50以下<60<70<80
- 任务四
- 对数据表格中的数据按照时间顺序排列,展示前6行,部分列(“name”和”showtime”)
- 任务五
- 新生成一个变量叫做”上映日期”,由”上映年份”和”上映月份”构成,日期统一用每月的1号。例如”新天生一对”的上映日期为2012-01-01。将数据集按照上映日期、票房和类型进行排序,其中上映日期升序排列、票房降序排列。展示前10行。
- 任务六
- 在很多实际数据中,有些日期的表示并不是yyyy-mm-dd的形式,极个别情况是以数字形式展示,比如实际数据中用16520代表日期。请将该数值转换为日期形式。
任务一
读入电影数据.csv数据集,将其命名为a,尝试使用summary函数查看数据总体情况。重点查看缺失情况,如果有缺失,请将缺失数据所在行全部删除(提示:你可能需要检索一些处理缺失数据的函数)。展示票房最高和最低记录的观测。
## 导入电影数据.csv数据集
a = read.csv("C:/Users/Desktop/film.csv",header = T,fileEncoding = "UTF-8")
## 查看数据集前五行
#head(a)
## 数据汇总summary
summary(a)
## 查看数据集行数与列数
dim(a)
## 查看数据中是否存在缺失值数据
is.na(a)
## 查看数据集中总的缺失值个数
sum(is.na(a))
## 按列查看缺失值个数
#colSums(is.na(a))
## 删除有缺失值的行数
a = na.omit(a)
dim(a)
展示票房最高和最低记录的观测
## 显示票房最高数的观测
(MAX = a[a$boxoffice == max(a$boxoffice),])
## 显示票房最低数的观测
(MIN = a[a$boxoffice == min(a$boxoffice),])
票房最高纪录观测输出结果为:
name boxoffice doubanscore type duration showtime director star1 index1
2 美人鱼 338583.3 6.9 喜剧 93 2016/2/8 周星驰 邓超 41310
star2 index2 导演年代
2 林允 9292 60
票房最低纪录观测输出结果为:
name boxoffice doubanscore type duration showtime director star1 index1
19 钢刀 924.86 4.3 动作 94 2016/5/20 阿甘 何润东 11822
star2 index2 导演年代
19 李学东 521 60
任务二
根据上映月份新生成一个变量叫做dangqi,其中12月、1月和2月归为贺岁档;7、8、9归为暑期档;3、4归为普通档;5、6归为黄金1档;10、11归为黄金2档;最后对档期进行统计。
## 赋值新的变量
a$months = months(as.Date(a$showtime))
a$dangqi[a$months == "十二月" | a$months == "一月" | a$months == "二月"] = "贺岁档"
a$dangqi[a$months =="七月" | a$months == "八月" | a$months == "九月"] = "暑假档"
a$dangqi[a$months =="三月" | a$months == "四月"] = "普通档"
a$dangqi[a$months =="五月" | a$months == "六月"] = "黄金1档"
a$dangqi[a$months =="十月" | a$months == "十一月"] = "黄金2档"
## 对档期进行统计
table(a$dangqi)
或者可以使用下面这种方法:
## install.packages("lubridate")
library(lubridate)
a$month = month(as.Date(a$showtime))
a$dangqi2[a$month == "12" | a$month == "1" | a$month == "2"] = "贺岁档"
a$dangqi2[a$month =="7" | a$month == "8" | a$month == "9"] = "暑假档"
a$dangqi2[a$month =="3" | a$month == "4"] = "普通档"
a$dangqi2[a$month =="5" | a$month == "6"] = "黄金1档"
a$dangqi2[a$month =="10" | a$month == "11"] = "黄金2档"
## 对档期进行统计
table(a$dangqi2)
任务三
将导演年代为30和40的统一合并为”50以下”,合并之后,更改导演年代的因子水平,使其变为:50以下<60<70<80
a$导演年代[a$导演年代 == 30 | a$导演年代 == 40 | a$导演年代 == 50] = "50及以下"
#更改导演年代的因子水平,使其变为:50以下<60<70<80
a$directorage = factor(a$导演年代,levels = c("50及以下", "60", "70","80"),ordered = T,)
a$directorage
class(a$directorage)
任务四
对数据表格中的数据按照时间顺序排列,展示前6行,部分列(“name”和”showtime”)
## 按照时间顺序进行排序
head(a[order(a$showtime),c("name","showtime")],6)
或者使用下述方法:
a = a[order(a$showtime),]
head(a[,c(1,6)])
任务五
新生成一个变量叫做”上映日期”,由”上映年份”和”上映月份”构成,日期统一用每月的1号。例如”新天生一对”的上映日期为2012-01-01。将数据集按照上映日期、票房和类型进行排序,其中上映日期升序排列、票房降序排列。展示前10行。
## 生成一个新变量
a$ondate = as.Date(a$showtime)
## 将日期统一为每月的1号
a$ondate = paste(substr(a$ondate,1,8),"01",sep="")
## 按照上映日期升序、票房降序、类型排列
a = a[order(a$ondate,-a$boxoffice,a$type),]
## 展示前10行
head(a,10)
任务六
在很多实际数据中,有些日期的表示并不是yyyy-mm-dd的形式,极个别情况是以数字形式展示,比如实际数据中用16520代表日期。请将该数值转换为日期形式。
这里题目中最终要求生成2016-05-20,而不是网上常说的单纯的将数字转换成日期格式(即设定某个起始时间,如下)
as.Date(35981, origin = "1899-12-30")
这种并不适用于本题目的解答。
raw_date = as.character(16520)
Year = substring(raw_date,1,2)
Month = substring(raw_date,3,3)
Date = substring(raw_date,4,5)
date = as.Date(paste(Year,Month,Date,sep='-'),format = '%y-%m-%d')
date
Rmarkdown对电影数据集进行统计分析相关推荐
- ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类
ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类 目录 输出结果 实现代码 输出结果 先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...
- ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类
ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类 目录 输出结果 实现代码 输出结果 先看输出结果 实现代码 # -*- coding: ut ...
- The Movies Dataset(电影数据集)
原文: The Movies Dataset Metadata on over 45,000 movies. 26 million ratings from over 270,000 users. T ...
- Hadoop 电影评分数据统计分析实验
Hadoop Hadoop分布式计算基础是什么? 1.存储 2.计算 ==电影评分数据统计分析实验== ==[项目目标]== 1)掌握Hive的查询语句的使用 2)掌握R的可视化分析 ==[实验原理] ...
- 【机器学习】从电影数据集到推荐系统
作者 | Amine Zaamoun 编译 | VK 来源 | Towards Data Science 最初是一个数据集,现在是一个由Amine Zaamoun开发的电影推荐系统: 为什么是推荐系统 ...
- 如何查看python代码中的数据集 按住data鼠标右键_Python小练习——电影数据集TMDB预处理...
加载TMDB数据集,进行数据预处理 TMDb电影数据库,数据集中包含来自1960-2016年上映的近11000部电影的基本信息,主要包括了电影类型.预算.票房.演职人员.时长.评分等信息.用于练习数据 ...
- keras随笔-读取IMDB电影数据集
1.加载IMDB数据集 # -*- coding: utf-8 -*- """ Created on Wed May 22 13:12:05 2019@author: l ...
- 1 ,spark 电影点评项目 : 简介,项目历史 ,元数据下载 ,电影数据集网站 ( 非常好的网站 )
1 ,可以采用的技术 :选哪种方式都行,我们都用用 RDD DataFrame DataFrame + RDD DataSet 2 ,需求 : 某电影 : 男性不同年龄观看者人数 某电影 : 女性不同 ...
- ggplot2中mpg数据集描述性统计分析
library(ggplot2) mpg mpg数据集记录了美国1999年和2008年部分汽车的制造厂商,型号,类别,驱动程序和耗油量 str(mpg) cty 和hwy分别记录城市和高速公路驾驶耗油 ...
最新文章
- python批量下载文件-Python实现批量下载文件
- Enterprise Library学习所得(一):总体概述
- 决定以太坊未来的三个关键扩容项目
- 布尔表达式的语法及语义分析程序_XSS语义分析的阶段性总结(一)
- android+模拟器+ram,Android模拟器RAM修改方法 - 尤其是3.0
- revit如何根据坐标进行画线_生物水处理专用消泡剂是如何根据生物水处理工艺原理进行消泡的?...
- UML--类之间的五种关系
- PCDJ DEX 3 for mac(DJ混音打碟工具)
- W3Cschool导航条练习
- html菜鸟教程zoom,插件 jQuery.panzoom 中文API文档
- 禅智听书《精进:如何成为一个很厉害的人》
- QQ音乐下载器、爬虫
- Jmeter启动失败
- 微信安装旧版本方法,版本过低,请升级最新版本
- 今日头条启动很快,你觉得可能是做了哪些优化?
- ML 2021 Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth
- 真相(truth)最可怕的敌人不是谎言(lie),而是神话(myth)
- Hybrid App开发之css样式使用
- python爬取12306_Python 爬取12306火车票
- Flutter黑马头条项目开发(二.底部切换导航和新闻页面开发)