参数

参数 说明
boosting /boost/boosting_type 用于指定弱学习器的类型,默认值为 ‘gbdt’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。可选参数有:
gbdt’,使用梯度提升树
rf’,使用随机森林
‘goss’,使用单边梯度抽样算法,速度很快,但是可能欠拟合。
objective 用于指定学习任务及相应的学习目标,常用的可选参数值如下:
regression”,使用L2正则项的回归模型(默认值)。
“regression_l1”,使用L1正则项的回归模型。
“binary”,二分类。
multiclass”,多分类。
“mape”,平均绝对百分比误差。
num_class 用于设置多分类问题的类别个数。
min_child_samples 叶节点样本的最少数量,默认值20,用于防止过拟合。
learning_rate / eta LightGBM 不完全信任每个弱学习器学到的残差值,为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1]
max_depth 指定树的最大深度,默认值为-1,表示不做限制,合理的设置可以防止过拟合。
num_leaves 指定叶子的个数,默认值为31,此参数的数值应该小于 2max_depth2^{max\_depth}2max_depth
feature_fraction / colsample_bytree 构建弱学习器时,对特征随机采样的比例,默认值为1。
bagging_fraction / subsample 默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。
注: bagging_freq 设置为非0值时才生效。
lambda_l1 L1正则化权重项,增加此值将使模型更加保守。推荐的候选值为:[0, 0.01~0.1, 1]
lambda_l2 L2正则化权重项,增加此值将使模型更加保守。推荐的候选值为:[0, 0.1, 0.5, 1]
min_gain_to_split / min_split_gain 指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。**推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] **
min_sum_hessian_in_leaf / min_child_weight 指定孩子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。推荐的候选值为:[1, 3, 5, 7]
metric 用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下:
‘mae’,用于回归任务,效果与 ‘mean_absolute_error’, ‘l1’ 相同。
‘mse’,用于回归任务,效果与 ‘mean_squared_error’, ‘l2’ 相同。
‘rmse’,用于回归任务,效果与 ‘root_mean_squared_error’, ‘l2_root’ 相同。
‘auc’,用于二分类任务。
‘binary’,用于二分类任务。
‘binary_logloss’,用于二分类任务。
‘binary_error’,用于二分类任务。
‘multiclass’,用于多分类。
‘multi_logloss’, 用于多分类。
‘multi_error’, 用于多分类。
seed / random_state 指定随机数种子。

以下为训练参数:

参数 说明
n_estimators/num_iterations/num_round/num_boost_round 指定最大迭代次数,默认值为10
valid_sets 列表类型,用于指定训练过程中用于评估的数据及数据的名称。例如:[train_data, valid_data]
fobj 可以指定二阶可导的自定义目标函数。
feval 自定义评估函数。
categorical_feature 指定哪些是类别特征。
early_stopping_rounds 指定迭代多少次没有得到优化则停止训练,默认值为None,表示不提前停止训练。
verbose_eval 可以是bool类型,也可以是整数类型。如果设置为整数,则每间隔verbose_eval次迭代就输出一次信息。
init_model 加载之前训练好的 lgb 模型,用于增量训练。

基本使用

LGBMClassifier

(1)初始化模型

from lightgbm import LGBMClassifier
# 重要参数:
lgb_model = LGBMClassifier(boosting_type='gbdt',num_leaves=31,max_depth=-1,learning_rate=0.1,n_estimators=100,objective='binary', # 默认是二分类min_split_gain=0.0,min_child_samples=20,subsample=1.0,subsample_freq=0,colsample_bytree=1.0,reg_alpha=0.0,reg_lambda=0.0,random_state=None,silent=True
)

(2)传入数据,开始训练

lgb_model.fit(X, # array, DataFrame 类型y, # array, Series 类型eval_set=None, # 用于评估的数据集,例如:[(X_train, y_train), (X_test, y_test)]eval_metric=None, # 评估函数,字符串类型,例如:'l2', 'logloss'early_stopping_rounds=None, verbose=True # 设置为正整数表示间隔多少次迭代输出一次信息
)

(3)预测

lgb_model.predict(data) # 返回预测值
lgb_model.predict_proba(data) # 返回各个样本属于各个类别的概率

实例

from lightgbm import LGBMClassifier
from sklearn.datasets import load_iris
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 加载样本数据集
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)model = LGBMClassifier(max_depth=3,learning_rate=0.1,n_estimators=200, # 使用多少个弱分类器objective='multiclass',num_class=3,booster='gbtree',min_child_weight=2,subsample=0.8,colsample_bytree=0.8,reg_alpha=0,reg_lambda=1,seed=0 # 随机数种子
)
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=100, early_stopping_rounds=50)# 对测试集进行预测
y_pred = model.predict(X_test)
model.predict_proba
#计算准确率
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%3.f%%'%(accuracy*100))# 显示重要特征
plot_importance(model)
plt.show()

结果如下:

LGBRegressor

from lightgbm import LGBMRegressor
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error# 导入数据集
boston = load_boston()
X ,y = boston.data,boston.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)model = LGBMRegressor(boosting_type='gbdt',num_leaves=31,max_depth=-1,learning_rate=0.1,n_estimators=100,objective='regression', # 默认是二分类min_split_gain=0.0,min_child_samples=20,subsample=1.0,subsample_freq=0,colsample_bytree=1.0,reg_alpha=0.0,reg_lambda=0.0,random_state=None,silent=True
)model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)], verbose=100, early_stopping_rounds=50)# 对测试集进行预测
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test,y_pred)
print('mse', mse)# 显示重要特征
plot_importance(model)
plt.show()

调参

参考LightGBM 调参方法(具体操作)

LightGBM教程相关推荐

  1. python机器学习案例系列教程——LightGBM算法

    分享一个朋友的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!大家可以看看是否对自己有帮助:点击打开 全栈工程师开发手册 (作者:栾鹏) python教程全解 安装 pip install li ...

  2. LightGBM使用教程

    数据科学与机器学习案例之客户的信用风险与预测 数据科学与机器学习案例之信用卡欺诈识别(严重类失衡数据建模) 数据科学与机器学习案例之汽车目标客户销售策略研究 数据科学与机器学习案例之WiFi定位系统的 ...

  3. 【集成学习系列教程5】LightGBM

    文章目录 7 LightGBM 7.1 概述 7.2 LightGBM优化算法详解 7.2.1 GOSS算法 7.2.2 EFB算法 7.2.3 Histogram算法 7.2.4 Leaf-Wise ...

  4. 开源!《AI 算法工程师手册》中文教程正式发布!

    作者 | 红色石头 转载自 AI有道(id:redstonewill) 最近红色石头在浏览网页的时候,偶然发现一份非常不错的 AI 资源,就是这本<AI 算法工程师手册> .本文将给大家推 ...

  5. R语言实战应用-lightgbm 算法优化:不平衡二分类问题(附代码)

    前言 本案例使用的数据为kaggle中"Santander Customer Satisfaction"比赛的数据.此案例为不平衡二分类问题,目标为最大化auc值(ROC曲线下方面 ...

  6. lightgbm简易评分卡制作

      LightGBM的意思是轻量级(light)的梯度提升机(GBM),其相对Xgboost具有训练速度快.内存占用低的特点.关于lgb针对xgb做的优化,后面想写一篇文章复习一下.本篇文章主要讲解如 ...

  7. Lightgbm with Hyperopt

    如何使用hyperopt对Lightgbm进行自动调参 之前的教程以及介绍过如何使用hyperopt对xgboost进行调参,并且已经说明了,该代码模板可以十分轻松的转移到lightgbm,或者cat ...

  8. wandb: 深度学习轻量级可视化工具入门教程

    本文,就来给大家介绍一款新型的机器学习可视化工具,能够让人工智能研发过程变得更加简单明了. wandb: 深度学习轻量级可视化工具入门教程 引言 wandb 验证数据可视化 自然语言处理 重要工具 极 ...

  9. vs最好的版本_Win10 环境下,LightGBM GPU 版本的安装

    由于知乎的编辑器不能完全支持 MarkDown 语法, 所以部分文字可能无法正常排版, 如果你想追求更好的阅读体验, 请移步至该博客的简书的链接. Win10 平台下, LightGBM GPU 版本 ...

最新文章

  1. 皮一皮:下班的渴望...
  2. 最小生成树Prime算法
  3. hive求差集和交集
  4. java memcached设置过期时间_Memcached的MemCachedClient设置过期时限
  5. ssm返回oracle序列,SSM之JSON通用返回格式
  6. 中望3d快捷键命令大全_史上最全的天正CAD快捷键命令大全:左撇子的也包括了...
  7. 马云成名前的一些照片
  8. 主成分分析碎石图_主成分分析大全
  9. iconfont下载的本地文件的ttf、woff、woff2转换成base64位后引入iconfont.css使用
  10. SoftMaker Office 2021中文版软件介绍-Office办公套件媲美Microsoft Office
  11. 【coq】函数语言设计 练习题poly 总结
  12. Egret引擎的EUI基础使用教程
  13. PostgreSQL 数据库查询
  14. vue项目使用预渲染 进行seo优化
  15. 手机app网易邮箱服务器设置,网易邮箱手机上设置Exchange服务教程
  16. Git 必知必会《上》
  17. cpu水冷散热器和风冷散热器哪个好 cpu水冷散热器和风冷散热器的区别2021
  18. TensorFlow2.0 学习笔记(三):卷积神经网络(CNN)
  19. 手机变板砖?这有专业救砖教程
  20. 仿泰捷视频最新 TV 版

热门文章

  1. Java学习——集合ArrayList类
  2. python下载txt_腾讯读书转TXT文件下载python代码
  3. 读书笔记——《腾讯传》
  4. 【小技巧】FPGA开发流程普通流程
  5. 如何安装虚拟机(小白式)
  6. A股上市公司招投标数据
  7. 校园网IPV6设置与应用
  8. 女生做UI设计怎么样?现在学习UI设计还有前景吗?
  9. ChatGPT技术与市场动态
  10. 小学语文古诗易考知识点汇总——心田花开