• 任务一
  • 读入电影数据.csv数据集,将其命名为a,尝试使用summary函数查看数据总体情况。重点查看缺失情况,如果有缺失,请将缺失数据所在行全部删除(提示:你可能需要检索一些处理缺失数据的函数)。展示票房最高和最低记录的观测。
  • 任务二
  • 根据上映月份新生成一个变量叫做dangqi,其中12月、1月和2月归为贺岁档;7、8、9归为暑期档;3、4归为普通档;5、6归为黄金1档;10、11归为黄金2档;最后对档期进行统计。
  • 任务三
  • 将导演年代为30和40的统一合并为”50以下”,合并之后,更改导演年代的因子水平,使其变为:50以下<60<70<80
  • 任务四
  • 对数据表格中的数据按照时间顺序排列,展示前6行,部分列(“name”和”showtime”)
  • 任务五
  • 新生成一个变量叫做”上映日期”,由”上映年份”和”上映月份”构成,日期统一用每月的1号。例如”新天生一对”的上映日期为2012-01-01。将数据集按照上映日期、票房和类型进行排序,其中上映日期升序排列、票房降序排列。展示前10行。
  • 任务六
  • 在很多实际数据中,有些日期的表示并不是yyyy-mm-dd的形式,极个别情况是以数字形式展示,比如实际数据中用16520代表日期。请将该数值转换为日期形式。

任务一

读入电影数据.csv数据集,将其命名为a,尝试使用summary函数查看数据总体情况。重点查看缺失情况,如果有缺失,请将缺失数据所在行全部删除(提示:你可能需要检索一些处理缺失数据的函数)。展示票房最高和最低记录的观测。

## 导入电影数据.csv数据集
a = read.csv("C:/Users/Desktop/film.csv",header = T,fileEncoding = "UTF-8")
## 查看数据集前五行
#head(a)
## 数据汇总summary
summary(a)
## 查看数据集行数与列数
dim(a)
## 查看数据中是否存在缺失值数据
is.na(a)
## 查看数据集中总的缺失值个数
sum(is.na(a))
## 按列查看缺失值个数
#colSums(is.na(a))
## 删除有缺失值的行数
a = na.omit(a)
dim(a)

展示票房最高和最低记录的观测

## 显示票房最高数的观测
(MAX = a[a$boxoffice == max(a$boxoffice),])
## 显示票房最低数的观测
(MIN = a[a$boxoffice == min(a$boxoffice),])

票房最高纪录观测输出结果为:

name boxoffice doubanscore type duration showtime director star1 index1
2 美人鱼  338583.3         6.9 喜剧       93 2016/2/8   周星驰  邓超  41310
star2 index2 导演年代
2  林允   9292       60

票房最低纪录观测输出结果为:

name boxoffice doubanscore type duration  showtime director  star1 index1
19 钢刀    924.86         4.3 动作       94 2016/5/20     阿甘 何润东  11822
star2 index2 导演年代
19 李学东    521       60

任务二

根据上映月份新生成一个变量叫做dangqi,其中12月、1月和2月归为贺岁档;7、8、9归为暑期档;3、4归为普通档;5、6归为黄金1档;10、11归为黄金2档;最后对档期进行统计。

## 赋值新的变量
a$months = months(as.Date(a$showtime))
a$dangqi[a$months == "十二月" | a$months == "一月" | a$months == "二月"] = "贺岁档"
a$dangqi[a$months =="七月" | a$months == "八月" | a$months == "九月"] = "暑假档"
a$dangqi[a$months =="三月" | a$months == "四月"] = "普通档"
a$dangqi[a$months =="五月" | a$months == "六月"] = "黄金1档"
a$dangqi[a$months =="十月" | a$months == "十一月"] = "黄金2档"
## 对档期进行统计
table(a$dangqi)

或者可以使用下面这种方法:

## install.packages("lubridate")
library(lubridate)
a$month = month(as.Date(a$showtime))
a$dangqi2[a$month == "12" | a$month == "1" | a$month == "2"] = "贺岁档"
a$dangqi2[a$month =="7" | a$month == "8" | a$month == "9"] = "暑假档"
a$dangqi2[a$month =="3" | a$month == "4"] = "普通档"
a$dangqi2[a$month =="5" | a$month == "6"] = "黄金1档"
a$dangqi2[a$month =="10" | a$month == "11"] = "黄金2档"
## 对档期进行统计
table(a$dangqi2)

任务三

将导演年代为30和40的统一合并为”50以下”,合并之后,更改导演年代的因子水平,使其变为:50以下<60<70<80

a$导演年代[a$导演年代 == 30 | a$导演年代 == 40 | a$导演年代 == 50] = "50及以下"
#更改导演年代的因子水平,使其变为:50以下<60<70<80
a$directorage = factor(a$导演年代,levels = c("50及以下", "60", "70","80"),ordered = T,)
a$directorage
class(a$directorage)

任务四

对数据表格中的数据按照时间顺序排列,展示前6行,部分列(“name”和”showtime”)

## 按照时间顺序进行排序
head(a[order(a$showtime),c("name","showtime")],6)

或者使用下述方法:

a = a[order(a$showtime),]
head(a[,c(1,6)])

任务五

新生成一个变量叫做”上映日期”,由”上映年份”和”上映月份”构成,日期统一用每月的1号。例如”新天生一对”的上映日期为2012-01-01。将数据集按照上映日期、票房和类型进行排序,其中上映日期升序排列、票房降序排列。展示前10行。

## 生成一个新变量
a$ondate = as.Date(a$showtime)
## 将日期统一为每月的1号
a$ondate = paste(substr(a$ondate,1,8),"01",sep="")
## 按照上映日期升序、票房降序、类型排列
a = a[order(a$ondate,-a$boxoffice,a$type),]
## 展示前10行
head(a,10)

任务六

在很多实际数据中,有些日期的表示并不是yyyy-mm-dd的形式,极个别情况是以数字形式展示,比如实际数据中用16520代表日期。请将该数值转换为日期形式。

这里题目中最终要求生成2016-05-20,而不是网上常说的单纯的将数字转换成日期格式(即设定某个起始时间,如下)
as.Date(35981, origin = "1899-12-30")
这种并不适用于本题目的解答。

raw_date = as.character(16520)
Year = substring(raw_date,1,2)
Month = substring(raw_date,3,3)
Date = substring(raw_date,4,5)
date = as.Date(paste(Year,Month,Date,sep='-'),format = '%y-%m-%d')
date

Rmarkdown对电影数据集进行统计分析相关推荐

  1. ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类

    ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类 目录 输出结果 实现代码 输出结果 先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...

  2. ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类

    ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类 目录 输出结果 实现代码 输出结果 先看输出结果 实现代码 # -*- coding: ut ...

  3. The Movies Dataset(电影数据集)

    原文: The Movies Dataset Metadata on over 45,000 movies. 26 million ratings from over 270,000 users. T ...

  4. Hadoop 电影评分数据统计分析实验

    Hadoop Hadoop分布式计算基础是什么? 1.存储 2.计算 ==电影评分数据统计分析实验== ==[项目目标]== 1)掌握Hive的查询语句的使用 2)掌握R的可视化分析 ==[实验原理] ...

  5. 【机器学习】从电影数据集到推荐系统

    作者 | Amine Zaamoun 编译 | VK 来源 | Towards Data Science 最初是一个数据集,现在是一个由Amine Zaamoun开发的电影推荐系统: 为什么是推荐系统 ...

  6. 如何查看python代码中的数据集 按住data鼠标右键_Python小练习——电影数据集TMDB预处理...

    加载TMDB数据集,进行数据预处理 TMDb电影数据库,数据集中包含来自1960-2016年上映的近11000部电影的基本信息,主要包括了电影类型.预算.票房.演职人员.时长.评分等信息.用于练习数据 ...

  7. keras随笔-读取IMDB电影数据集

    1.加载IMDB数据集 # -*- coding: utf-8 -*- """ Created on Wed May 22 13:12:05 2019@author: l ...

  8. 1 ,spark 电影点评项目 : 简介,项目历史 ,元数据下载 ,电影数据集网站 ( 非常好的网站 )

    1 ,可以采用的技术 :选哪种方式都行,我们都用用 RDD DataFrame DataFrame + RDD DataSet 2 ,需求 : 某电影 : 男性不同年龄观看者人数 某电影 : 女性不同 ...

  9. ggplot2中mpg数据集描述性统计分析

    library(ggplot2) mpg mpg数据集记录了美国1999年和2008年部分汽车的制造厂商,型号,类别,驱动程序和耗油量 str(mpg) cty 和hwy分别记录城市和高速公路驾驶耗油 ...

最新文章

  1. python批量下载文件-Python实现批量下载文件
  2. Enterprise Library学习所得(一):总体概述
  3. 决定以太坊未来的三个关键扩容项目
  4. 布尔表达式的语法及语义分析程序_XSS语义分析的阶段性总结(一)
  5. android+模拟器+ram,Android模拟器RAM修改方法 - 尤其是3.0
  6. revit如何根据坐标进行画线_生物水处理专用消泡剂是如何根据生物水处理工艺原理进行消泡的?...
  7. UML--类之间的五种关系
  8. PCDJ DEX 3 for mac(DJ混音打碟工具)
  9. W3Cschool导航条练习
  10. html菜鸟教程zoom,插件 jQuery.panzoom 中文API文档
  11. 禅智听书《精进:如何成为一个很厉害的人》
  12. QQ音乐下载器、爬虫
  13. Jmeter启动失败
  14. 微信安装旧版本方法,版本过低,请升级最新版本
  15. 今日头条启动很快,你觉得可能是做了哪些优化?
  16. ML 2021 Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth
  17. 真相(truth)最可怕的敌人不是谎言(lie),而是神话(myth)
  18. Hybrid App开发之css样式使用
  19. python爬取12306_Python 爬取12306火车票
  20. Flutter黑马头条项目开发(二.底部切换导航和新闻页面开发)

热门文章

  1. SpringBoot整合定时任务和Emil发送
  2. Vue---Vuex状态管理核心
  3. Simulink建模与仿真学习笔记之真值表(Truth Table)
  4. C# 提供一个Winform小数字键盘模拟器
  5. 大学 python 试讲_聊聊一次真实的 Python 面试经历(笔试)
  6. 《乐高EV3机器人搭建与编程》一1.3 LEGO单位
  7. 诺瓦科技--测试开发工程师(7.12)
  8. ZYNQ LINUX开发笔记——内存直接访问
  9. 创业的Idea是怎样产生的?
  10. oracle数据库_安装