提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

目录

文章目录

前言

一、集成模型概述

二、关联规则算法

1.Bagging

1.建模阶段

2.模型评价阶段

3.预测阶段

2.推进技术Boosting

1.建模阶段

2.预测阶段


前言

本文介绍的集成模型的主要算法,是对我们老师的ppt进行简要的总结。

一、集成模型概述

二、关联规则算法

1.Bagging

装袋技术 的核心是重抽样自举法

装袋技术包括三个阶段 :

1.建模阶段

第一步抽取自举样本: 对样本量为N的原始样本集S进行有放回的随机抽样,得到一个容量为N的随机样本S1

第二步:将自举样本S1视为训练样本,建立分类树或者回归树T1

第三步: 重复上述两个步骤M次,得到M个自举样本S1 , S2 , …,SM以及M个预测模型T1 , T2 , …,TM

2.模型评价阶段

一般利用袋外观测的预测误差来评价装袋技术所建立的组合模型的预测误差。 对于预测模型Ti,样本不在Si  内的观测称为袋外观测。

以分类问题为例: 若第i个观测在建模过程中有q次作为袋外观测,则对第i个观测进行预测时将有q个预测模型为其投票,以得票最高的类别作为其预测类别。最后计算误判观测个数占总样本的比例,即为基于袋外观测的预测误差。

3.预测阶段

(1)对于分类问题:采用M个预测模型投票和少数服从多数的原则,哪个类别得票数多,就预测为那个类别

(2)对于回归问题: 以M个预测给出的预测值的平均值作为最终预测值

2.推进技术Boosting

1.建模阶段

建模过程中, AdaBoost技术通过对加权样本的有放回随机抽样,获得训练样本集

第一次建模: 对样本量为N的原始样本集S进行有放回的随机抽样,得到一个容量为N的随机样本S1 此时S中每个观测样本权值相同,每个观测进入训练样本集S1的概率是相等的 利用S1建立模型T1 重新调整S中各个观测的权重,对于T1预测正确的观测赋予较小的权值,预测错误的观测权值不变。

含义就是说:第一次建模每个样本权重都为1/N,当进行分类之后,根据分类错误率会调整每个样本的权重。(假如第一次得到e分类误差为0.4)

根据底层公式使得被分错的样本会大于1/N,而正确的样本会小于1/N。然后根据

就可以得到第一个弱学习器的权重,f1(x)=W1(X)*G1(X)。

第二次建模:

根据权值对S进行有放回的随机抽样,得到一个容量为N的随机样本S2 利用S2建立模型T2 重新调整S中各个观测的权重,对于T2预测正确的观测赋予较小的权值,预测错误的观测权值不变 模型T2重点关注的是模型T1预测错误的样本。

同理:(第二次得到e分类误差就会降低,假如变成0.3),同时就会得到f2(x)=W1(x)G1(x) + W2(x)G2(x)

第三次建模: 根据权值对S进行有放回的随机抽样,得到一个容量为N的随机样本S3 利用S3建立分类树T3 重新调整S中各个观测的权重,对于T3预测正确的观测赋予较小的权值,预测错误的观测权值不变 模型T3重点关注的是模型T2预测错误的样本

同理:(第三次得到e分类误差就会降低,假如变成0.2),同时就会得到f2(x)=W1(x)G1(x) + W2(x)G2(x)+ W3(x)G3(x)

重复上述步骤M次,得到M个自举样本S1 , S2 , …,SM以及M个预测模型T1 , T2 , …,TM。

  G(x) = sign[fm(x)] = sign[ W1(x)G1(x) + W2(x)G2(x)+ W3(x)G3(x)+.....+Wm(x)Gm(x)]。

      就这样,分错样本权值增大,分对样本权值变小,而在下一轮迭代中,总是选取让误差率最低的阈值来设计基本分类器,所以误差率e不断降低。

2.预测阶段

对于分类问题:依照预测类别分别计算权值的总和。权值和最大的类别即为观测X的最终预测类别 对于回归问题: 以M个预测给出的预测值的平均值作为最终预测值

集成模型-组合预测模型相关推荐

  1. 在深度学习中使用Bagging集成模型

    集成模型是什么? 集成是一种机器学习概念,使用相同的学习算法训练多个模型.Bagging是一种减少预测方差的方法,通过使用重复组合生成多组原始数据,从数据集生成额外的训练数据.Boosting 是一种 ...

  2. 【机器学习】集成模型方法

    作者 | Salma Elshahawy, MSc. 编译 | VK 来源 | Towards Data Science 介绍 我们之前讨论了一些利用机器学习(ML)模型预测能力的常用方法.这些方法主 ...

  3. R语言ARIMA集成模型预测时间序列分析

    全文链接:http://tecdat.cn/?p=18493 本文我们使用4个时间序列模型对每周的温度序列建模.第一个是通过auto.arima获得的,然后两个是SARIMA模型,最后一个是Buys- ...

  4. Python集成机器学习:用AdaBoost、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化

    最近我们被客户要求撰写关于集成机器的研究报告,包括一些图形和统计输出. Boosting 是一类集成机器学习算法,涉及结合许多弱学习器的预测. 视频:从决策树到随机森林:R语言信用卡违约分析信贷数据实 ...

  5. 组合预测模型 | ARIMA-LSTM时间序列预测(Python)

    组合预测模型 | ARIMA-LSTM时间序列预测(Python) 目录 组合预测模型 | ARIMA-LSTM时间序列预测(Python) 预测结果 基本介绍 程序设计 参考资料 预测结果 基本介绍 ...

  6. ML之回归预测:利用6个单独+2个集成模型(LassoR、KernelRidgeR、ElasticNetR、GBR、XGBR、LGBMR,Avg、Stacking)对自动驾驶数据集【5+1】回归预测

    ML之回归预测:利用6个单独+2个集成模型(LassoR.KernelRidgeR.ElasticNetR.GBR.XGBR.LGBMR,Avg.Stacking)对自动驾驶数据集[5+1]进行回归预 ...

  7. 机器学习集成模型学习——Stacking集成学习(五)

    stacking集成模型示例如下: stacking一般由2层堆叠构成 Stacking集成算法思路 上图为整体流程,思路如下: 把原始数据切分成两部分:训练集D-train与测试集D-test,训练 ...

  8. 机器学习集成模型学习——Bagging集成学习(三)

    Bagging bagging的集成方式是: 用1个模型(元模型) 然后将这个元模型分成多个相同模型,每个模型使用训练集的一部分进行训练,得到多个基模型 最后测试时分别跑每个模型,平均结果得出这个集成 ...

  9. 机器学习集成模型学习——投票集成Voting(二)

    Voting集成 投票机制就是多个模型分别预测,然后投票,票数最高的就是整个模型最后的效果 案例代码 from sklearn.linear_model import LogisticRegressi ...

最新文章

  1. 如果你是Python初学者,就从这个开始
  2. 几个常用的Linux操作系统监控脚本
  3. sequelize模型关联_关于Sequelize连接查询时inlude中model和association的区别详解
  4. mysql isnull
  5. C++学习之路 | PTA乙级—— 1030 完美数列 (25 分)(精简)
  6. java获取指定倒退或向前的时间工具类
  7. 样机|UI大佬用的样机,都在这里哦!
  8. 字符串转换为小数(如String a=“123“),转换之后为123.0
  9. Fade To Black《消失在黑暗中》BY Metallica [转]
  10. laravel mysql增删改查_laravel基础laravle中orm简单的增删改查-一颗优雅草男神你姚哥...
  11. 批量word删除页眉页脚——VBS脚本,在office宏中运行即可
  12. MATLAB加入螺旋相位板调制,螺旋相位板的操作原理和使用手册_维尔克斯光电
  13. 手机定位浅析 AGPS定位 LBS基站定位 卫星定位
  14. android面试题整理(上)
  15. 【计算机网络】三传输层--可靠传输原理rdt、GBN、SR
  16. 农业农村部回应长江刀鱼将正式禁捕:已严重过度捕捞
  17. 华为无线网卡插上服务器没反应,无限网卡插在台式机上没反应啊怎么解决
  18. MySQL数据库之数据库约束,一文带你了解
  19. 计算机应用技术专业的大学生职业生涯规划书,计算机应用专业大学生职业生涯规划书范文...
  20. 区块链 - 若只如初见

热门文章

  1. PCM(脉冲编码调制)的折叠码原理
  2. 数字化助力生产管理:计件工资管理系统
  3. OFFICE2013 打开两个word文档卡死的解决办法
  4. 互联网外行创始人的团队问题和解决方案
  5. html5怎么给字加颜色代码,字体颜色怎么设置?
  6. 「项目管理」软件项目失败的几个原因总结
  7. 【渝粤教育】21秋期末考试大数据营销10138k2
  8. kdj指标主要看哪个值_什么是KDJ指标?如何看kdj指标
  9. 服务器知识:Linux服务器修改root管理密码
  10. 明日方舟页面球体动画