[机器学习]XGBoost 训练时使用Weight,AUC指标的计算总结
在训练XGB的时候, xgb.DMatrix()函数里有个weight的参数,可以给样本设置权重,这样xgb就可以在设置了权重的样本集上训练只要DMatrix()函数里设置了weight参数,打印出来的metric都是在加了权重的数据集上计算出来的。先放个代码,放个打印出来的logloss和auc
tain.txt,test.txt 为标准带weight的libsvm格式 label:weight 1:feat1 2:feat2 ......
import os
train = os.path.join(dataset_path, "train.txt")
test = os.path.join(dataset_path, "test.txt")
roc_auc_score函数中有个参数是sample_weight,可以给样本设置权重。
一 DMatrix读取libsvm目录
计算AUC时,不带Weight与 带Weight如果下结果:
二 DMatrix读取X,y,Weight
三 XGBClassifier fit时设置sample_weight
XGBClassifier传入了train的weight在fit时,但是计算AUC时,对train与test都是不带weight计算的
四 XGB训练进使用Weight总结
1.使用Dmatrix方式训练时,因为train test都有weight, 在训练过程中都会打印AUC(带weight)
2. 使用XGBClassifier fit模型时,只传了train的weight,模型训练时会使用weight的信息建树,但是打印metric时, train与test计算AUC 不是不带weight信息
所以如果使用带weight的样本进行训练时,XGB打印的信息因训练方式数据格式区别会有不同的打印结果。但是总体来说,使用XGBClassifier训练更好,因为之后预测样本时,样本不会有weight信息,这时计算预测集的AUC时的信息,与XGBClassifier fit时打印的信息是保持一样的。
加了权重样本的AUC如何计算_大豆木南的博客-CSDN博客_加权auc
[机器学习]XGBoost 训练时使用Weight,AUC指标的计算总结相关推荐
- ROC曲线与AUC指标理解
ROC曲线,也称受试者工作特征曲线,感受性曲线.用于研究X对于Y的预测准确率情况. ROC曲线涉及的几个术语名词: 指标: ROC曲线最初是运用在军事上,当前在医学领域使用非常广泛,因此指标称&quo ...
- 机器学习算法 03 —— 逻辑回归算法(精确率和召回率、ROC曲线和AUC指标、过采样和欠采样)
文章目录 系列文章 逻辑回归 1 逻辑回归介绍 1.1 逻辑回归原理 输入 激活函数 1.2 损失以及优化 2 逻辑回归API介绍 3 案例:肿瘤良性恶性预测 4 分类模型的评估 4.1 分类评估方法 ...
- 机器学习(16)ROC曲线与AUC指标(癌症分类的模型检测--AUC指标)
目录 一.基础理论 0.引言 1.TPR与FPR 1.TPR(召回率) 2.FPR 2.ROC曲线 3.AUC指标 二.癌症分类的模型检测(AUC指标) 1.正反例转1.0 2.计算AUC指标 总代码 ...
- 机器学习AUC指标的理解
机器学习AUC指标的理解 AUC在机器学习领域中是一种模型评估指标,是指模型ROC曲线下的面积.分类器效果月AUC值成正比.即当分类器的分类效果越好的时候,ROC曲线下面积越大,AUC越大. 其中,R ...
- 机器学习——XGBoost大杀器,XGBoost模型原理,XGBoost参数含义
0.随机森林的思考 随机森林的决策树是分别采样建立的,各个决策树之间是相对独立的.那么,在我们得到了第k-1棵决策树之后,能否通过现有的样本和决策树的信息, 对第m颗树的建立产生有益的影响呢?在随机森 ...
- [机器学习] XGBoost 样本不平衡问题
一 样本不平衡 何谓样本不平衡--简单来说就是数据集中负样本的数量远远大于正样本的数量.在这个情况下,模型就会倾向于把样本预测为负样本,因为这是最便捷的降低损失.提高模型准确率的方法.例如:有一个正样 ...
- [机器学习]XGBoost 和 LightGBM 参数对比与调参
XGBoost 参数介绍 XGBoost的参数一共分为三类(完整参数请戳官方文档): 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression).boo ...
- 机器学习——XgBoost特征筛选
目录 1. 什么是Xgboost 2. Xgboost的优点 2.1 正则化 2.2 并行处理 2.3 灵活性 2.4 缺失值处理 2.5 剪枝 2.6 内置交叉验证 3. Xgboost模型详解 3 ...
- 加载svr模型_机器学习XGBoost实战,网格搜索自动调参,对比随机森林,线性回归,SVR【完整代码(含注释)+数据集见原文链接】...
建议:阅读2020.8.7的文章,完全了解GDBT和XGBT的原理. 机器学习- XGBoost,GDBT[过程:决策树,集成学习,随机森林,GDBT,XGBT,LightGBM] 本次实践内容: 数 ...
最新文章
- 任务感知单目深度估计的3D目标检测
- harbor登录验证_Harbor 源码浅析
- 高并发系统数据库设计
- IBM JVM调整– gencon GC策略
- Ubuntu将在明年推出平板及手机系统
- select自定义箭头样式
- 谷歌Colab GPU达到使用量限额解决办法
- Backup Volume 操作 - 每天5分钟玩转 OpenStack(59)
- Express 4.x Node.js的Web框架----《转载》
- 一位大佬对于 Qt 学习的最全总结(三万字干货)
- 物联网、大数据、云计算、人工智能之间的关系
- 美国薪资最高的技术技能:Golang、Kafka、DynamoDB、Redshift、Cassandra
- 十八层地狱详解(看看你会进几层)....
- [校内自测] Incr (LIS+智商)
- (三)【矩阵论】(子空间)常见子空间|基扩张定理|和空间与交空间|直和
- 如何修改网游服务器,定期修改网游服务器密码确保数据安全
- 程序员的双十一剁手指南,看完不剁手算我输。
- 高通Android随身WIFI屏蔽商家远程控制断网
- 美国大数据下的中国女人,结果令人吃惊!
- unity 一个物体赋予多个材质球
热门文章
- 基于BP神经网络的PID控制,基于单神经元的pid控制
- php查询下级分类,php+mysql查询实现无限下级分类树输出示例
- 彩票销量10年来首降,中国彩票没人买了?
- 【CC3200AI 实验教程6】疯壳·AI语音人脸识别(会议记录仪/人脸打卡机)-串口
- gps l1带宽_EPON目前可以提供上下行对称的1.25Gps的带宽。
- (附源码)springboot公益慈善管理系统 毕业设计 281454
- 导航栏以及二级菜单栏(下拉列表)的制作
- linux 查看samtools版本,Samtools版本更新
- Java基础篇(标识符、关键字、数据类型、运算符、类型转换、注释方法、扫描器)
- AvatarMe: Realistically Renderable 3D Facial Reconstruction “in-the-wild”