R语言之基本统计分析
准备工作
加载需要使用的库
library(pastecs)
library(psych)
library(ggm)
读取数据,使用H1N1流感数据集和波士顿房价数据集。
flu <- read.table("./datasets/h1n1_flu.csv", header = TRUE, sep = ",")
housing <- read.csv("./datasets/BostonHousing.csv", header = TRUE)
多种方法获取描述性统计量
基础方法
通过summary计算数值型变量的最大值、最小值、分位数以及均值,类别变量计算频数统计。
summary(flu[c("household_children", "sex")])
summary(flu[c("h1n1_concern", "h1n1_knowledge")])
通过 sapply() 计算描述性统计量,先定义统计函数,在进行聚合计算。
mystats <- function(x, na.omit = TRUE) {if (na.omit) {x <- x[!is.na(x)]}m <- mean(x)n <- length(x)s <- sd(x)skew <- sum((x - m)^3 / s^3) / nkurt <- sum((x - m)^4 / s^4) / n - 3return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}
sapply(flu[c("h1n1_concern", "h1n1_knowledge")], mystats)
拓展包方法
通过pastecs包中的 stat.desc()函数计算描述性统计量,可以得到中位数、平均数、平均数的标准误、平均数置信度为95%的置信区间、方差、标准差以及变异系数。
stat.desc(flu[c("household_children", "sex")])
通过psych包中的describe()计算描述性统计量。
describe(flu[c("household_children", "sex")])
分组计算描述性统计
基础方法
使用aggregate()分组获取描述性统计
- 分组计算不同性别收入贫困计数。
- 是否属于查尔斯河的房价中位数平均值。
aggregate(flu[c("income_poverty")], by = list(sex = flu$sex), length)
aggregate(housing$medv, by = list(medv = housing$chas), FUN = mean)
使用 by() 分组计算描述性统计量
by(flu[c("income_poverty", "sex")], flu$sex, length)
频数表和列联表
table(flu$sex)
相关
相关的类型
Pearson、Spearman和Kendall相关
R可以计算多种相关系数,包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格(polychoric)相关系数和多系列(polyserial)相关系数。
- 计算房价数据的相关系数,默认是Pearson相关系数。
cor(housing)
2. 指定计算Spearman相关系数
cor(housing, method = "spearman")
3. 城镇人均犯罪率与房价的相关系数
x <- housing[c("crim")]
y <- housing[c("medv")]
cor(x, y)
犯罪率与房价负相关,犯罪率越高,房价越低,符合事实。
相关性的显著性检验
cor.test(housing[, c("crim")], housing[, c("medv")])
方差分析
方差分析(ANOVA)又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。
单因素方差分析
从输出结果的F检验值来看,p<0.05比较显著,说明是否在查尔斯河对房价有影响。
fit <- aov(housing$medv ~ housing$chas)
summary(fit)
多因素方差分析
构建多因素方差分析,查看因子对房价的影响是否显著。
fit <- aov(housing$medv ~ housing$crim * housing$b)
summary(fit)
参考资料
- Datawhale 开源文档:https://github.com/datawhalechina/team-learning-program/blob/master/RLanguage/Task03_Statistics.rmd
感谢Datawhale对开源学习的贡献!
R语言之基本统计分析相关推荐
- 当当网 R 语言学习资料统计分析
当当网 R 语言学习资料统计分析 一.网络数据的抓取 二.数据清洗与保存 (一)工作目录的修改 (二)导入数据并修改列名 1. 交互式编辑器 2. names()函数 3. rename()函数 (三 ...
- R语言的基本统计分析
通过综合案例,使用R语言掌握基本统计分析的各种指标的并掌握统计分析结果的可视化方法. 1.背景介绍 Consolidated食品公司在新墨西哥州.亚利桑那州和加利福尼亚州经营连锁超市.它举办了一个促销 ...
- R语言生物群落数据统计分析
R 语言作的开源.自由.免费等特点使其广泛应用于生物群落数据统计分析.生物群落数据多样而复杂,涉及众多统计分析方法.本文以生物群落数据分析中的最常用的统计方法回归和混合效应模型.多元统计分析技术及结构 ...
- R语言_基本统计分析
#基本统计分析#整体描述性统计分析,针对数值变量 attach(mtcars) opar = par(no.readnoly=TRUE) d = mtcars[c("mpg",&q ...
- r语言plotmds_多元统计分析R语言建模| 11 多维标度法MDS
定义:利用客体间相似性数据去解释它们之间的空间关系的统计分析方法 多维变量--二维三维空间表示,标度到低维空间上 种类: 度量化模型:相似性数据游距离.比例尺度测得 非度量化模型:顺序量表(有序)水平 ...
- R语言实战(统计分析1)
基本内容 描述型统计分析 频数表和列联表 卡方检验 相关系数和协方差 t检验 描述型统计量 首先我们以mtcars数据集为例,先看一下这个数据集前几行的内容 ,主要有英里数(mpg),马力(hp),车 ...
- R语言与生物统计分析试题
1.空文件夹"WCPFC"(用于存放最终输出的文件): 2.csv 文件"WCPFC 目标渔船名单",包含船名.国籍.IMO 号及 MMSI 号: 3.文件夹& ...
- 用R语言进行基本统计分析
1. 描述性统计分析 使用自带的summary()函数 > myvars <- c("mpg","hp","wt") > ...
- R语言实战 - 基本统计分析(2)- 频数表和列联表
数据: > library(vcd) > head(Arthritis)ID Treatment Sex Age Improved 1 57 Treated Male 27 Some 2 ...
最新文章
- 关于计算机视觉的那些论文 | CCF推荐论文导读
- sublime c 语言 编译环境搭建,详解sublime搭建C/C++编译环境
- javaScript 验证码代码
- 利用正则匹配数字后边的字符_图解正则——字符匹配
- 0x06 MySQL 单表查询
- 【项目管理】------九大项目管理框架 (
- MATLAB破解版解决帮助文档需要许可证的问题
- Excel函数大全-04数据库函数
- Subversion vs Subclipse
- python 合并两个txt文件
- 服务器机房监控系统,服务器机房监控建设方案的介绍
- XP系统计算机桌面图标不见,xp系统桌面图标不显示的详细方法
- PHP下载远程图片的3个方法
- [转]一些漢字、字體/字型、内碼、輸入法資料的整理
- select()函数的作用
- 通信设备选cat1还是选nbiot
- 图格 Pro for mac(图片拼图切图大师)
- 计算机网络思维导图(零基础--思维导图详细版本及知识点)
- flash设置屏保 html,全面淘汰 Flash 带崩经典屏保软件:教你一招搞定它
- amazon ec2 一年试用免费申请