R语言:北京PM2.5浓度回归分析
竞赛信息及数据来源:
https://www.pkbigdata.com/common/cmpt/北京PM2.5浓度回归分析训练赛_竞赛信息.html
# 读入数据
data <- read.csv('pm25_train.csv',stringsAsFactors = F)
# cbwd四个分类会导致完全共线,所以删除一个
data <- data[,-13]# 数据描述性统计
str(data)
summary(data)
# y的分布
hist(data$pm2.5)
# x与y散点图
par(mfrow=c(3,4))
for(i in c(2,4:12)){plot(data$pm2.5~data[,i],xlab=colnames(data)[i],main=paste0('pm2.5 and ',colnames(data)[i]))
}# 相关性分析
corr <- cor(data[,-1])
corr
# 相关性可视化,可以看出TEMP和DEMP,PRES三者之间相关性较高
library(corrplot)
par(mfrow=c(1,1))
corrplot(corr = corr)# 多重共线性检验,29.3533<100,说明共线性程度小
kappa(corr,exact=TRUE)# 多元线性回归模型建立
# 画直方图发现pm2.5是偏态分布,所以先对pm2.5取对数再进行回归,pm2.5=0时,对数取0
data$log_pm2.5 <- log(data$pm2.5)
data$log_pm2.5[which(is.infinite(data$log_pm2.5))] <- 0
data$date <- as.Date(data$date)
fit1 <- lm(log_pm2.5~.,data = data[,-c(1,3)])
summary(fit1)# 残差分析
par(mfrow=c(2,2))
plot(fit1)
运行结果:
> summary(fit1)Call:
lm(formula = log_pm2.5 ~ ., data = data[, -c(1, 3)])Residuals:Min 1Q Median 3Q Max
-4.2677 -0.5146 0.0216 0.5469 3.3083 Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.809e+01 7.758e-01 36.214 < 2e-16 ***
hour 1.225e-02 6.484e-04 18.889 < 2e-16 ***
DEWP 5.400e-02 5.927e-04 91.107 < 2e-16 ***
TEMP -7.722e-02 7.594e-04 -101.693 < 2e-16 ***
PRES -2.262e-02 7.586e-04 -29.819 < 2e-16 ***
Iws -3.735e-03 9.565e-05 -39.044 < 2e-16 ***
Is -1.804e-02 5.333e-03 -3.383 0.000719 ***
Ir -7.907e-02 2.865e-03 -27.595 < 2e-16 ***
cbwd_NE -3.941e-01 1.536e-02 -25.653 < 2e-16 ***
cbwd_NW -4.524e-01 1.269e-02 -35.651 < 2e-16 ***
cbwd_SE 1.596e-01 1.180e-02 13.520 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Residual standard error: 0.7887 on 35735 degrees of freedom
Multiple R-squared: 0.4151, Adjusted R-squared: 0.4149
F-statistic: 2536 on 10 and 35735 DF, p-value: < 2.2e-16
R语言:北京PM2.5浓度回归分析相关推荐
- DC算法竞赛——北京PM2.5浓度回归分析
北京PM2.5浓度回归分析 比赛结果(118/1150) 一. 概述 1.项目来源:https://www.dcjingsai.com/static_page/cmpList.html 2.给定数据字 ...
- 数据挖掘竞赛-北京PM2.5浓度回归分析训练赛
北京PM2.5浓度回归分析训练赛 简介 DC上的一个回归题,比较简单. 时间原因没有细看,提交到70多名就结束了. 使用stacking方法结合多个回归模型. 过程 数据获取 官方给定. 数据探索 训 ...
- 北京PM2.5浓度回归分析
姓名 学号 陈聪 20185109043 张一帆 20185109045 罗凯 20185110010 刘文博 20185109044 任务 由给定一段时间内的北京天气相关指数数据和北京PM2.5指数 ...
- 机器学习实践系列(三)----达观杯--北京PM2.5浓度回归分析训练赛
1.大赛地址 北京PM2.5浓度回归分析训练赛 看了很长时间机器学习算法了,从这个博客开始打算长期更新一些算法的尝试,在实践中用起来. 先从最简单的线性回归开始吧. 2.赛题说明 数据主要包括2010 ...
- 线性回归、Lasso回归、岭回归预测北京PM2.5浓度
一.项目背景 北京PM2.5浓度回归分析训练赛 1.数据 数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据. 数据分为训练数据和测试数据,分别保存 ...
- UA MATH571A QE练习 R语言 单因子试验的回归分析
UA MATH571A QE练习 R语言 单因子试验的回归分析 2015年5月的第六题是单因子试验,因为历年只有这一道,所以单独做一下. 土壤中的硅主要以硅酸盐矿物的形式存在,受成土母质和成土过程的影 ...
- R语言第七讲 线性回归分析案例续
题目 MASS 库中包含 Boston (波士顿房价)数据集,它记录了波士顿周围 506 个街区的 medv (房价中位数).我们将设法用 13 个预测变量如 rm (每栋住宅的平 ...
- R语言第七讲 线性回归分析案例
题目 MASS 库中包含 Boston (波士顿房价)数据集,它记录了波士顿周围 506 个街区的 medv (房价中位数).我们将设法用 13 个预测变量如 rm (每栋住宅的平均房间数), age ...
- R语言做如何做多元回归分析(逐步回归)之 提取回归结果参数-调整R方,标准化回归系数
setwd("D:\R\myrfile") getwd() –逐步回归提取回归结果参数-调整R方,标准化回归系数-- read.table("demo.csv" ...
最新文章
- 深入理解Eureka之源码解析
- python【力扣LeetCode算法题库】15- 三数之和
- “leave the world behind”十一快乐出行
- c语言手机通讯录退出程序,通讯录小程序(C/C++)C语言练习小程序
- 计算机考研一定要去北上广吗,考研一定要去“北上广”吗?这几类学生可能更适合......
- 在Hibernate中使用存储过程
- java我现在不懂看不懂,看都看不懂,难道我与Java无缘吗
- jsp页面 字体颜色 白色_CSS 文本字体颜色(CSS color)
- javascript调用alert()
- JavaScript 运算符优先级 - 汇总表
- 2018厦门大学计算机技术分数线,厦门大学2018年各省市录取分数线
- 【笔试面试】携程笔试面试注意事项
- Lettuce在Spring boot中的使用方式
- 软件行业迎来拐点 厂商积极拥抱SaaS和云计算
- 杂谈:渐进增强与优雅降级
- 对一支圆珠笔进行测试,要从哪些方面进行测试?
- TV-Android基本架构
- 高新技术企业认定全攻略
- 添加右键菜单:用xx打开(管理员身份下,也可以运行)【解决 ShellExecute failed (2): Is this command correct? 的问题】
- Gitlab-ci:从零开始的前端自动化部署
热门文章
- 从TargetApi22升级到TargetApi26注意事项
- 详解拉卡拉支付赋能商户运营模式
- 闲聊 Android 异步任务
- 简信CRM-----客户关系管理软件
- zookeeper-3.4.14+codis-3.2.0集群部署(详细版)
- toggle rate与switch activity
- 通通的最后一篇博客(附自制html5平面射击小游戏一枚)
- ROS 安装和环境配置
- 浪漫泡泡html,javascript实现很浪漫的气泡冒出特效_javascript技巧
- python3.6中format函数_Python3.6新特性:f-strings格式化输出