拓端tecdat|R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
原文 | http://tecdat.cn/?p=22336
来源 | 拓端数据部落公众号
Boosting算法是一种把若干个分类器整合为一个分类器的方法,也就是一种集成分类方法(Ensemble Method)。
相关视频:Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
Boosting集成学习原理与R语言提升回归树BRT预测短鳍鳗分布生态学实例
,时长10:25
计量经济学的视角
可以从计量经济学的角度理解提升方法(Boosting)的内容。
这里的目标是要解决:
损失函数ℓ,以及预测器集合M。这是一个优化问题。这里的优化是在函数空间中进行的,是一个简单的优化问题。从数值的角度来看,优化是用梯度下降来解决的(这就是为什么这种技术也被称为梯度提升)。
同样,最佳值不是某个实值x⋆,而是某个函数m⋆。因此,在这里我们会有类似m
其中右边的式子也可以写成
从后者可以清楚地看到f是我们在剩余残差上拟合的模型。
我们可以这样改写:定义
目标是拟合一个模型,使 ri,k=h⋆(xi),当我们有了这个最优函数。设 mk(x)=mk-1(x)+γkh⋆(x)。
这里有两个重要点。
首先,我们拟合一个模型,通过一些协变量 x来解释 y。然后考虑残差 ε,并以相同的协变量 x来解释它们。如果你尝试用线性回归,你会在第1步结束时完成,因为残差 ε与协变量 x是正交的:我们没有办法从它们那里学习。在这里它是有效的,因为我们考虑的是简单的非线性模型。而实际上,可以使用的东西是添加一个收缩参数。不要考虑 ε=y-m(x),而是 ε=y-γm(x) 。弱学习的概念在这里是极其重要的。我们收缩得越多,花的时间就越长。不断从错误中学习是件好事。但从启发式的角度来看,当我们开始过度拟合时,我们应该停止。而这可以通过对初始数据集进行分割训练验证或使用交叉验证来观察。
样条曲线
我们尝试用样条曲线来学习。因为标准的样条曲线有固定的结点,
在这里,我们将(以某种方式)优化结点位置。为了说明问题,这里使用的是高斯回归,而不是分类。考虑以下数据集(只有一个协变量):
对于结点的最佳选择,我们可以使用
lsgen(x, y, degree = 1, numknot = 2)
在5%的收缩参数下,代码简单如下
v=.05fit=lm(y~bs(x,degree=1,knots=optknot))
yp=predict(fit,newdata=df)yr= y - v*yp
YP=v*yp
for(t in 1:200){
fit=lm(yr~bs(x,degree=1,knots= optknot) )plot( x, y,ylab="",xlab="")
lines( x,y,type="l" )
为了直观地看到100次迭代后的结果,使用
viz(100)
很明显,我们看到,在这里从数据中学习。
决策回归树
我们尝试一下别的模型。如果我们在每一步都考虑决策树,而不是线性逐步回归(这是用线性样条考虑的)。
v=.1
rpart(y~x,data=df)
yp=predict(fit)yr= y - yp
YP=v*yp
for(t in 1:100){predict(fit,newdata=df)
同样,为了将学习过程可视化,使用
plot( x, y,ylab="",xlab="")
lines( x,y,type="s"
fit=rpart(y~x,data=df)
这一次,通过这些树我们不仅有一个好的模型,而且与我们使用单一的回归树所能得到的模型不同。
如果我们改变收缩参数呢?
viz=function(v=0.05)f$yr=df$y -v*ypYP=v*ypfor(t in 1:100){yp=predict(fit,newdata=df)yr= yr - v*yplines(df$x,y,type="s"
显然,这个收缩参数有影响。它必须很小才能得到一个好的模型。这就是使用弱学习来获得好的预测的想法。
分类和Adaboost
现在我们了解了bootsting的工作原理,并把它用于分类。这将更加复杂,因为残差在分类中通常信息量不大,而且它很难缩减。因此,让我们尝试一些稍微不同的方法,来介绍adaboost算法,AdaBoost是最著名的Boosting族算法。
在我们最初的讨论中,目标是最小化一个凸的损失函数。在这里,如果我们把类表示为{-1,+1},我们考虑的损失函数是(与逻辑模型相关的损失函数是
。
我们在这里所做的与梯度下降(或牛顿算法)有关。之前,我们是从误差中学习的。在每个迭代中,计算残差,并对这些残差拟合一个(弱)模型。这个弱模型的贡献被用于梯度下降优化过程。
这里的情况会有所不同,因为更难使用残差,空残差在分类中从不存在。所以我们将增加权重。最初,所有的观察值都有相同的权重。但是,迭代之后,我们将增加预测错误的个体的权重,减少预测正确的个体的权重。
我们从ω0=1n开始,然后在每一步拟合一个模型(分类树),权重为ωk(我们没有讨论树的算法中的权重,但实际上在公式中是很直接的)。让hωk表示该模型(即每个叶子里的概率)。然后考虑分类器,它返回一个在{-1,+1}的值。然后设
Ik是被错误分类的个体集合。
然后设置
并在最后更新模型时使用
以及权重
除以总和,以确保总和是1。如前所述,我们可以包括一些收缩参数。为了直观地看到这个过程的收敛性,我们将在我们的数据集上绘制总误差。
for(i in 1:n_iter)rfit = rpart(y~., x, w, method="class")
g = -1 + 2*(predict(rfit,x)[,2]>.5)
e = sum(w*(y*>0))
error[i] = mean(1*f*y<0)
plot(seq(1,n_iter),error
在这里,我们面临一个机器学习中的经典问题:我们有一个完美的模型,误差为零。用多项式拟合:有10个观察值,9度的多项式,拟合很好。将我们的数据集一分为二,一个训练数据集,一个验证数据集。
train_car = car[id_train,]
test_car= car[-id_train,]
我们在第一个模型上构建模型,并在第二个模型上检查
for(i in 1:n_iter){rfit = rpart(y_train~., x_train, w_train, method="class")train_error[i] = mean(1*f_train*y_train<0)test_error[i] = mean(1*f_test*y_test<0)}
plot(seq(1,n_iter),test_error)
在这里,和以前一样,经过80次迭代,我们在训练数据集上有一个不错的模型,但在验证数据集上表现得很差。在20次迭代后,效果比较好。
R函数:梯度提升(GBM)算法
也可以使用R函数。
gbm(y~ .,n.trees = 200,shrinkage = .01,cv.folds = 5
这里考虑的是交叉验证,而不是训练验证,以及用得是森林而不是单棵树,当然,输出要好得多(这里收缩参数是一个非常小的参数,而且学习非常慢)。
最受欢迎的见解
1.从决策树模型看员工为什么离职
2.R语言基于树的方法:决策树,随机森林
3.python中使用scikit-learn和pandas决策树
4.机器学习:在SAS中运行随机森林数据分析报告
5.R语言用随机森林和文本挖掘提高航空公司客户满意度
6.机器学习助推快时尚精准销售时间序列
7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用
8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)
9.python中用pytorch机器学习分类预测银行客户流失
拓端tecdat|R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化相关推荐
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化
全文链接:http://tecdat.cn/?p=31644 借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛(点击文末"阅读原文&q ...
- R语言构建决策树(decision trees)模型并进行调优和解释
R语言构建决策树(decision trees)模型并进行调优和解释 目录 R语言构建决策树(decision trees)
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- R语言构建决策树模型(decision tree)并可视化决策树:自定义函数计算对数似然、自定义函数计算模型的分类效能(accuray、F1、偏差Deviance)、使用pander包美化界面输出内容
R语言构建决策树模型(decision tree)并可视化决策树:自定义函数计算对数似然.自定义函数计算模型的分类效能(accuray.F1.偏差Deviance).使用pander包美化界面输出内容 ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- r语言 C4.5 剪枝是用什么算法_决策树算法
决策树算法,从名字中也可以理解到该算法是以树形结构建立模型的,该算法主要根据分层和分割的方式将预测变量空间划分为一系列简单区域.对某个给定的待预测的观测值,用它所属区域中训练的平均值或众数进行预测.决 ...
最新文章
- 机器学习面试的12个基础问题,强烈推荐!
- block的一些注意事项
- 《Essential ASP.NET 2.0中文版》
- Fedora 30用dnf安装OpenCV及g++编译其应用程序
- Interface 的本质用处
- 一天搞定CSS: overflow--14
- 手动创建1个基于注解的springmvc项目
- spring mvc工作原理及组件说明
- 机器学习效率正在超越摩尔定律
- 3 微信公众号开发 接受普通消息
- win7宽带已连接但是有感叹号无法上网的解决方法
- 配置Redis主从复制
- ChinaMM竞赛:低光照人脸检测
- ASP.NET jQuery 食谱15 (通过控件CustomValidator验证CheckBoxList)
- RTCM3.1/3.2
- 学生上课睡觉班主任怎么处理_学生上课睡觉,老师该怎么处理? | 实操课103
- github已有项目上添加并更新
- 守望先锋地图英文和英雄英文
- fastadmin 百度编辑器无法上传图片的几种原因和修改方法
- 动手学深度学习-加载数据集时报错(d2l.load_data)
热门文章
- 黄聪:wordpress向mysql字段中保存html代码(使用add_option()方法),然后无法显示出问题...
- 使用Perl实现系统管理自动化(第二版) 中文电子版
- 【课本】【No.4】数字特征 离散/连续均值/方差 随机向量 协方差 相关系数 矩 偏度 峰度 多维均值/协方差 运算性质 条件期望 随机个随机向量的和 正态中的条件期望是线性函数
- 初稿4月1 刚体运动与四元数;9月6日修订复数、2D旋转、三维空间旋转的罗德里格、四元数计算、四元数的3D旋转的双倍覆盖、复合旋转、四元数插值
- 七、数值微分与数值积分
- 原生JavaScript(js)手把手教你写轮播图插件(banner)
- [导入]用Windows自带的媒体播放器抓视频截图
- matplotlib创建图的基本方法
- 基于MVC4+EasyUI的Web开发框架经验总结(5)--使用HTML编辑控件CKEditor和CKFinder
- Linux的基本权限和特殊权限