拓端tecdat|R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
原文链接:http://tecdat.cn/?p=22482
原文出处:拓端数据部落公众号
引言
本文是一个简短的教程,在R中拟合BRT(提升回归树)模型。我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果。
本教程的目的是帮助你学习如何在R中开发一个BRT模型。
相关视频:Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
,时长10:25
示例数据
有两套短鳍鳗的记录数据。一个用于模型训练(建立),一个用于模型测试(评估)。在下面的例子中,我们加载的是训练数据。存在(1)和不存在(0)被记录在第2列。环境变量在第3至14列。
> head(train)
拟合模型
拟合gbm模型,你需要决定使用什么设置,本文为你提供经验法则使用的信息。这些数据有1000个地点,包括202条短鳍鳗的存在记录。你可以假设:1. 有足够的数据来建立具有合理复杂性的相互作用模型 2. 大约0.01的lr学习率可能是一个合理的初始点。下面的例子显示如何确定最佳树数(nt)。
step(data= train, x = 3:13,family = "bernoulli", comp = 5,lr = 0.01, bag.fr = 0.5)
对提升回归树模型进行交叉验证优化。
使用1000个观测值和11个预测因子,创建10个50棵树的初始模型。
上面我们使用了交叉验证的。我们定义了:数据;预测变量;因变量--表示物种数据的列号;树的复杂度--我们首先尝试树的复杂度为5;学习率--我们尝试用0. 01。
运行一个如上所述的模型,将输出进度报告,做出图形。首先,你能看到的东西。这个模型是用默认的10倍交叉验证法建立的。黑色实心曲线是预测偏差变化的平均值,点状曲线是1个标准误差(即在交叉验证上测量的结果)。红线表示平均值的最小值,绿线表示生成该值的树的数量。模型对象中返回的最终模型是在完整的数据集上建立的,使用的是最优的树数量。
length(fitted)
返回的结果包含 fitted - 来自最终树的拟合值,fitted.vars - 拟合值的方差, residuals - 拟合值的残差,contribution - 变量的相对重要性。 statistics - 相关的评估统计量。cv.statistics 这些是最合适的评估统计数据。
我们在每个交叉验证中计算每个统计量(在确定的最佳树数下,根据所有交叉验证中预测偏差的平均变化进行计算),然后在此呈现这些基于交叉验证的统计量的平均值和标准误差。 weights - 拟合模型时使用的权重(默认情况下,每个观测值为 "1",即权重相等)。 trees. fitted - 阶段性拟合过程中每一步所拟合的树的数量记录;training.loss.values - 训练数据上偏差的阶段性变化 ,cv.values - 阶段性过程中每一步所计算的预测偏差的CV估计值的平均值。
你可以用摘要函数查看变量的重要性
> summary(lr )
选择设置
以上是对设置的初步猜测,使用了Elith等人(2008)中讨论的经验法则。它做出的模型只有650棵树,所以我们的下一步将是减少lr。例如,尝试lr = 0.005,争取超过1000棵树。
step(data=train, x = 3:13, tree.co = 5,
+ lr = 0.005
为了探索其他设置是否表现更好,你可以将数据分成训练集和测试集,或者使用交叉验证结果,改变tc、lr和bagging,然后比较结果。
简化模型
简化会建立了许多模型,所以它可能很慢。在其中,我们评估了简化lr为0.005的模型的价值,但只测试剔除最多5个变量("n.drop "参数;默认是自动规则一直持续到预测偏差的平均变化超过gbm.step中计算的原始标准误差)。
对于我们的运行,估计要剔除的最佳变量数是1;可以使用红色垂直线指示的数字。现在,建立一个剔除1个预测变量的模型,使用[[1]]表示我们要剔除一个变量。
step( x= pred.list[[1]], )
现在这已经形成了一个新的模型,但是考虑到我们并不特别想要一个更简单的模型(因为在这种规模的数据集中,包含的变量贡献很小是可以接受的),我们不会继续使用它。
绘制模型的函数和拟合值
由我们的函数创建的BRT模型的拟合函数可以用plot来绘制。
> plot( lr005 )
这个函数的附加参数允许对图进行平滑表示。根据环境空间内观测值的分布,拟合函数可以给出与每个预测因子有关的拟合值分布。
fits( lr005)
每张图上方的数值表示与每个非因素预测因子有关的拟合值的加权平均值。
绘制交互作用
该代码评估数据中成对的交互作用的程度。
inter( lr005)
返回一个列表。前两个部分是对结果的总结,首先是5个最重要的交互作用的排名列表,其次是所有交互作用的表格。
f$intera
你可以像这样绘制交互作用。
persp( lr005, z.range=c(0,0.6)
对新数据进行预测
如果您想对一组地点进行预测(而不是对整个地图进行预测),一般的程序是建立一个数据框架,行代表地点,列代表您模型中的变量。我们用于预测站点的数据集在一个名为test的文件中。 "列需要转换为一个因子变量,其水平与建模数据中的水平一致。使用predict对BRT模型中的站点进行预测,预测结果在一个名为preds的向量中。
preds <- predict(lr005,test,
deviance(obs=test, pred=preds)
> d <- cbind(obs, preds)
> e <- evaluate(p=pres, a=abs)
gbm中预测的一个有用的特点是可以预测不同数量的树。
tree<- seq(100, 5000, by=100)
predict( n.trees=tree, "response")
上面的代码会形成一个矩阵,每一列都是模型对tree.list中该元素所指定的树数量的预测,例如,第5列的预测是针对tree.list[5]=500棵树。现在来计算所有这些结果的偏差,然后绘制。
> for (i in 1:50) {calc.devi(obs,
+ pred[,i])
+ }
> plot(tree.list,deviance
空间预测
这里我们展示了如何对整张地图进行预测。
> plot(grids)
我们用一个常量值("因子 "类)创建一个data.frame,并将其传递给预测函数。
> p <- predict(grids, lr005,
> plot(p)
最受欢迎的见解
1.R语言多元Logistic逻辑回归 应用案例
2.面板平滑转移回归(PSTR)分析案例实现
3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R语言泊松Poisson回归模型分析案例
5.R语言回归中的Hosmer-Lemeshow拟合优度检验
6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现
7.在R语言中实现Logistic逻辑回归
8.python用线性回归预测股票价格
9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标
拓端tecdat|R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素相关推荐
- 生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
全文下载链接:http://tecdat.cn/?p=22482 在本文中,在R中拟合BRT(提升回归树)模型.我们的目标是使BRT(提升回归树)模型应用于生态学数据,并解释结果.(点击文末" ...
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- 深度学习R语言 mlr3 建模,训练,预测,评估(随机森林,Logistic Regression)
深度学习R语言 mlr3 建模,训练,预测,评估(随机森林,Logistic Regression) 本文主要通过使用mlr3包来训练German credit数据集,实现不同的深度学习模型. 1. ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量
全文链接:http://tecdat.cn/?p=18550 我根据泊松Poisson回归.GAM样条曲线模型对一个十字路口的骑自行车者的数量进行预测(点击文末"阅读原文"获取完整 ...
- R语言GARCH族模型:正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数
全文链接:http://tecdat.cn/?p=31023 如何构建合适的模型以恰当的方法对风险进行测量是当前金融研究领域的一个热门话题(点击文末"阅读原文"获取完整代码数据). ...
最新文章
- 【php】【psr】psr2 编码风格规范
- php查询性能提升,php – Mysql查询提高性能
- 博士发公众号文章也能评国奖?双一流高校新规引热议!
- 为CentOS 7安装VMware-tools
- 001_推箱子-绘制图片
- SAP ABAP收货或者货物移动(MIGO,MB11,MB1A)在保存时候的增强点
- ogg replicat 进程 abend 处理
- 蓝桥杯 试题 基础练习 芯片测试——12行代码AC
- 结合实际场景谈一谈微服务配置
- python求出五位数的回文数_python之递归
- 【Python爬虫】Re(正则表达式)库入门
- 苹果iOS13将推出 这些经典手机将会被“淘汰”
- 学习Java的9张思维导图
- FLASH寿命测试!
- SIM800(GPRS)拨号上网失败未能连接服务器
- 基于STM32设计的宠物投喂器
- win7显示u盘efi分区_win7下找不到u盘efi分区
- 计算前复权和后复权价格?A股复权因子的使用
- 年记 2018,新年快乐
- 【AUTOSAR-COM】-10.4-发送的IPDU Callout(Com_TxIpduCallout)的使用小结