在训练XGB的时候, xgb.DMatrix()函数里有个weight的参数,可以给样本设置权重,这样xgb就可以在设置了权重的样本集上训练只要DMatrix()函数里设置了weight参数,打印出来的metric都是在加了权重的数据集上计算出来的。先放个代码,放个打印出来的logloss和auc

tain.txt,test.txt 为标准带weight的libsvm格式   label:weight  1:feat1 2:feat2 ......

import os
train = os.path.join(dataset_path, "train.txt")
test = os.path.join(dataset_path, "test.txt")

roc_auc_score函数中有个参数是sample_weight,可以给样本设置权重。

一 DMatrix读取libsvm目录

计算AUC时,不带Weight与 带Weight如果下结果:

二 DMatrix读取X,y,Weight

三 XGBClassifier fit时设置sample_weight

XGBClassifier传入了train的weight在fit时,但是计算AUC时,对train与test都是不带weight计算的

四 XGB训练进使用Weight总结

1.使用Dmatrix方式训练时,因为train test都有weight, 在训练过程中都会打印AUC(带weight)

2. 使用XGBClassifier fit模型时,只传了train的weight,模型训练时会使用weight的信息建树,但是打印metric时, train与test计算AUC 不是不带weight信息

所以如果使用带weight的样本进行训练时,XGB打印的信息因训练方式数据格式区别会有不同的打印结果。但是总体来说,使用XGBClassifier训练更好,因为之后预测样本时,样本不会有weight信息,这时计算预测集的AUC时的信息,与XGBClassifier fit时打印的信息是保持一样的。

加了权重样本的AUC如何计算_大豆木南的博客-CSDN博客_加权auc

[机器学习]XGBoost 训练时使用Weight,AUC指标的计算总结相关推荐

  1. ROC曲线与AUC指标理解

    ROC曲线,也称受试者工作特征曲线,感受性曲线.用于研究X对于Y的预测准确率情况. ROC曲线涉及的几个术语名词: 指标: ROC曲线最初是运用在军事上,当前在医学领域使用非常广泛,因此指标称&quo ...

  2. 机器学习算法 03 —— 逻辑回归算法(精确率和召回率、ROC曲线和AUC指标、过采样和欠采样)

    文章目录 系列文章 逻辑回归 1 逻辑回归介绍 1.1 逻辑回归原理 输入 激活函数 1.2 损失以及优化 2 逻辑回归API介绍 3 案例:肿瘤良性恶性预测 4 分类模型的评估 4.1 分类评估方法 ...

  3. 机器学习(16)ROC曲线与AUC指标(癌症分类的模型检测--AUC指标)

    目录 一.基础理论 0.引言 1.TPR与FPR 1.TPR(召回率) 2.FPR 2.ROC曲线 3.AUC指标 二.癌症分类的模型检测(AUC指标) 1.正反例转1.0 2.计算AUC指标 总代码 ...

  4. 机器学习AUC指标的理解

    机器学习AUC指标的理解 AUC在机器学习领域中是一种模型评估指标,是指模型ROC曲线下的面积.分类器效果月AUC值成正比.即当分类器的分类效果越好的时候,ROC曲线下面积越大,AUC越大. 其中,R ...

  5. 机器学习——XGBoost大杀器,XGBoost模型原理,XGBoost参数含义

    0.随机森林的思考 随机森林的决策树是分别采样建立的,各个决策树之间是相对独立的.那么,在我们得到了第k-1棵决策树之后,能否通过现有的样本和决策树的信息, 对第m颗树的建立产生有益的影响呢?在随机森 ...

  6. [机器学习] XGBoost 样本不平衡问题

    一 样本不平衡 何谓样本不平衡--简单来说就是数据集中负样本的数量远远大于正样本的数量.在这个情况下,模型就会倾向于把样本预测为负样本,因为这是最便捷的降低损失.提高模型准确率的方法.例如:有一个正样 ...

  7. [机器学习]XGBoost 和 LightGBM 参数对比与调参

    XGBoost 参数介绍 XGBoost的参数一共分为三类(完整参数请戳官方文档): 通用参数:宏观函数控制. Booster参数:控制每一步的booster(tree/regression).boo ...

  8. 机器学习——XgBoost特征筛选

    目录 1. 什么是Xgboost 2. Xgboost的优点 2.1 正则化 2.2 并行处理 2.3 灵活性 2.4 缺失值处理 2.5 剪枝 2.6 内置交叉验证 3. Xgboost模型详解 3 ...

  9. 加载svr模型_机器学习XGBoost实战,网格搜索自动调参,对比随机森林,线性回归,SVR【完整代码(含注释)+数据集见原文链接】...

    建议:阅读2020.8.7的文章,完全了解GDBT和XGBT的原理. 机器学习- XGBoost,GDBT[过程:决策树,集成学习,随机森林,GDBT,XGBT,LightGBM] 本次实践内容: 数 ...

最新文章

  1. 任务感知单目深度估计的3D目标检测
  2. harbor登录验证_Harbor 源码浅析
  3. 高并发系统数据库设计
  4. IBM JVM调整– gencon GC策略
  5. Ubuntu将在明年推出平板及手机系统
  6. select自定义箭头样式
  7. 谷歌Colab GPU达到使用量限额解决办法
  8. Backup Volume 操作 - 每天5分钟玩转 OpenStack(59)
  9. Express 4.x Node.js的Web框架----《转载》
  10. 一位大佬对于 Qt 学习的最全总结(三万字干货)
  11. 物联网、大数据、云计算、人工智能之间的关系
  12. 美国薪资最高的技术技能:Golang、Kafka、DynamoDB、Redshift、Cassandra
  13. 十八层地狱详解(看看你会进几层)....
  14. [校内自测] Incr (LIS+智商)
  15. (三)【矩阵论】(子空间)常见子空间|基扩张定理|和空间与交空间|直和
  16. 如何修改网游服务器,定期修改网游服务器密码确保数据安全
  17. 程序员的双十一剁手指南,看完不剁手算我输。
  18. 高通Android随身WIFI屏蔽商家远程控制断网
  19. 美国大数据下的中国女人,结果令人吃惊!
  20. unity 一个物体赋予多个材质球

热门文章

  1. 基于BP神经网络的PID控制,基于单神经元的pid控制
  2. php查询下级分类,php+mysql查询实现无限下级分类树输出示例
  3. 彩票销量10年来首降,中国彩票没人买了?
  4. 【CC3200AI 实验教程6】疯壳·AI语音人脸识别(会议记录仪/人脸打卡机)-串口
  5. gps l1带宽_EPON目前可以提供上下行对称的1.25Gps的带宽。
  6. (附源码)springboot公益慈善管理系统 毕业设计 281454
  7. 导航栏以及二级菜单栏(下拉列表)的制作
  8. linux 查看samtools版本,Samtools版本更新
  9. Java基础篇(标识符、关键字、数据类型、运算符、类型转换、注释方法、扫描器)
  10. AvatarMe: Realistically Renderable 3D Facial Reconstruction “in-the-wild”