任务一
读入电影数据.csv数据集，将其命名为a，尝试使用summary函数查看数据总体情况。重点查看缺失情况，如果有缺失，请将缺失数据所在行全部删除（提示：你可能需要检索一些处理缺失数据的函数）。展示票房最高和最低记录的观测。
任务二
根据上映月份新生成一个变量叫做dangqi，其中12月、1月和2月归为贺岁档；7、8、9归为暑期档；3、4归为普通档；5、6归为黄金1档；10、11归为黄金2档；最后对档期进行统计。
任务三
将导演年代为30和40的统一合并为”50以下”，合并之后，更改导演年代的因子水平，使其变为：50以下<60<70<80
任务四
对数据表格中的数据按照时间顺序排列,展示前6行，部分列（“name”和”showtime”）
任务五
新生成一个变量叫做”上映日期”，由”上映年份”和”上映月份”构成，日期统一用每月的1号。例如”新天生一对”的上映日期为2012-01-01。将数据集按照上映日期、票房和类型进行排序，其中上映日期升序排列、票房降序排列。展示前10行。
任务六
在很多实际数据中，有些日期的表示并不是yyyy-mm-dd的形式，极个别情况是以数字形式展示，比如实际数据中用16520代表日期。请将该数值转换为日期形式。

任务一

读入电影数据.csv数据集，将其命名为a，尝试使用summary函数查看数据总体情况。重点查看缺失情况，如果有缺失，请将缺失数据所在行全部删除（提示：你可能需要检索一些处理缺失数据的函数）。展示票房最高和最低记录的观测。

## 导入电影数据.csv数据集
a = read.csv("C:/Users/Desktop/film.csv",header = T,fileEncoding = "UTF-8")
## 查看数据集前五行
#head(a)
## 数据汇总summary
summary(a)

## 查看数据集行数与列数
dim(a)
## 查看数据中是否存在缺失值数据
is.na(a)
## 查看数据集中总的缺失值个数
sum(is.na(a))
## 按列查看缺失值个数
#colSums(is.na(a))
## 删除有缺失值的行数
a = na.omit(a)
dim(a)

展示票房最高和最低记录的观测

## 显示票房最高数的观测
(MAX = a[a$boxoffice == max(a$boxoffice),])
## 显示票房最低数的观测
(MIN = a[a$boxoffice == min(a$boxoffice),])

票房最高纪录观测输出结果为：

name boxoffice doubanscore type duration showtime director star1 index1
2 美人鱼  338583.3         6.9 喜剧       93 2016/2/8   周星驰  邓超  41310
star2 index2 导演年代
2  林允   9292       60

票房最低纪录观测输出结果为：

name boxoffice doubanscore type duration  showtime director  star1 index1
19 钢刀    924.86         4.3 动作       94 2016/5/20     阿甘 何润东  11822
star2 index2 导演年代
19 李学东    521       60

任务二

根据上映月份新生成一个变量叫做dangqi，其中12月、1月和2月归为贺岁档；7、8、9归为暑期档；3、4归为普通档；5、6归为黄金1档；10、11归为黄金2档；最后对档期进行统计。

## 赋值新的变量
a$months = months(as.Date(a$showtime))
a$dangqi[a$months == "十二月" | a$months == "一月" | a$months == "二月"] = "贺岁档"
a$dangqi[a$months =="七月" | a$months == "八月" | a$months == "九月"] = "暑假档"
a$dangqi[a$months =="三月" | a$months == "四月"] = "普通档"
a$dangqi[a$months =="五月" | a$months == "六月"] = "黄金1档"
a$dangqi[a$months =="十月" | a$months == "十一月"] = "黄金2档"
## 对档期进行统计
table(a$dangqi)

或者可以使用下面这种方法：

## install.packages("lubridate")
library(lubridate)
a$month = month(as.Date(a$showtime))
a$dangqi2[a$month == "12" | a$month == "1" | a$month == "2"] = "贺岁档"
a$dangqi2[a$month =="7" | a$month == "8" | a$month == "9"] = "暑假档"
a$dangqi2[a$month =="3" | a$month == "4"] = "普通档"
a$dangqi2[a$month =="5" | a$month == "6"] = "黄金1档"
a$dangqi2[a$month =="10" | a$month == "11"] = "黄金2档"
## 对档期进行统计
table(a$dangqi2)

任务三

将导演年代为30和40的统一合并为”50以下”，合并之后，更改导演年代的因子水平，使其变为：50以下<60<70<80

a$导演年代[a$导演年代 == 30 | a$导演年代 == 40 | a$导演年代 == 50] = "50及以下"
#更改导演年代的因子水平，使其变为：50以下<60<70<80
a$directorage = factor(a$导演年代,levels = c("50及以下", "60", "70","80"),ordered = T,)
a$directorage
class(a$directorage)

任务四

对数据表格中的数据按照时间顺序排列,展示前6行，部分列（“name”和”showtime”）

## 按照时间顺序进行排序
head(a[order(a$showtime),c("name","showtime")],6)

或者使用下述方法：

a = a[order(a$showtime),]
head(a[,c(1,6)])

任务五

新生成一个变量叫做”上映日期”，由”上映年份”和”上映月份”构成，日期统一用每月的1号。例如”新天生一对”的上映日期为2012-01-01。将数据集按照上映日期、票房和类型进行排序，其中上映日期升序排列、票房降序排列。展示前10行。

## 生成一个新变量
a$ondate = as.Date(a$showtime)
## 将日期统一为每月的1号
a$ondate = paste(substr(a$ondate,1,8),"01",sep="")
## 按照上映日期升序、票房降序、类型排列
a = a[order(a$ondate,-a$boxoffice,a$type),]
## 展示前10行
head(a,10)

任务六

在很多实际数据中，有些日期的表示并不是yyyy-mm-dd的形式，极个别情况是以数字形式展示，比如实际数据中用16520代表日期。请将该数值转换为日期形式。

这里题目中最终要求生成2016-05-20，而不是网上常说的单纯的将数字转换成日期格式（即设定某个起始时间，如下）
as.Date(35981, origin = "1899-12-30")
这种并不适用于本题目的解答。

raw_date = as.character(16520)
Year = substring(raw_date,1,2)
Month = substring(raw_date,3,3)
Date = substring(raw_date,4,5)
date = as.Date(paste(Year,Month,Date,sep='-'),format = '%y-%m-%d')
date

Rmarkdown对电影数据集进行统计分析相关推荐

ML之K-means：基于K-means算法利用电影数据集实现对top 100 电影进行文档分类
ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类目录输出结果实现代码输出结果先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...
ML之H-Clusters：基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类
ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类目录输出结果实现代码输出结果先看输出结果实现代码 # -*- coding: ut ...
The Movies Dataset（电影数据集）
原文: The Movies Dataset Metadata on over 45,000 movies. 26 million ratings from over 270,000 users. T ...
Hadoop 电影评分数据统计分析实验
Hadoop Hadoop分布式计算基础是什么? 1.存储 2.计算 ==电影评分数据统计分析实验== ==[项目目标]== 1)掌握Hive的查询语句的使用 2)掌握R的可视化分析 ==[实验原理] ...
【机器学习】从电影数据集到推荐系统
作者 | Amine Zaamoun 编译 | VK 来源 | Towards Data Science 最初是一个数据集,现在是一个由Amine Zaamoun开发的电影推荐系统: 为什么是推荐系统 ...
如何查看python代码中的数据集按住data鼠标右键_Python小练习——电影数据集TMDB预处理...
加载TMDB数据集,进行数据预处理 TMDb电影数据库,数据集中包含来自1960-2016年上映的近11000部电影的基本信息,主要包括了电影类型.预算.票房.演职人员.时长.评分等信息.用于练习数据 ...
keras随笔-读取IMDB电影数据集
1.加载IMDB数据集 # -*- coding: utf-8 -*- """ Created on Wed May 22 13:12:05 2019@author: l ...
1 ，spark 电影点评项目：简介，项目历史，元数据下载，电影数据集网站 ( 非常好的网站 )
1 ,可以采用的技术 :选哪种方式都行,我们都用用 RDD DataFrame DataFrame + RDD DataSet 2 ,需求 : 某电影 : 男性不同年龄观看者人数某电影 : 女性不同 ...
ggplot2中mpg数据集描述性统计分析
library(ggplot2) mpg mpg数据集记录了美国1999年和2008年部分汽车的制造厂商,型号,类别,驱动程序和耗油量 str(mpg) cty 和hwy分别记录城市和高速公路驾驶耗油 ...

Rmarkdown对电影数据集进行统计分析

任务一

展示票房最高和最低记录的观测

任务二

任务三

任务四

任务五

任务六

Rmarkdown对电影数据集进行统计分析相关推荐

最新文章

热门文章