文章目录

  • 理论
    • TITLE 标题
    • AUTHOR 作者
    • ABSTRACT 摘要
    • Introduction 介绍
    • Preliminaries 先要掌握的知识点
      • GBDT and Its Complexity Analysis
    • Gradient-based One-Side Sampling 基于梯度的单边采样
      • Algorithm Description 算法介绍
    • Exclusive Feature Bundling 互斥特征捆绑
  • 优点

理论

  • 论文地址
  • readerpaper

TITLE 标题

LightGBM: A Highly Efficient Gradient Boosting Decision Tree

LightGBM: 一种高效的梯度提升决策树

AUTHOR 作者

Guolin Ke, Qi Meng, etc

ABSTRACT 摘要

Gradient Boosting Decision Tree (GBDT) is a popular machine learning algorithm, and has quite a few effective implementations such as XGBoost and pGBRT

梯度提升决策树(GBDT)是一种流行的机器学习算法,有许多有效的实现,如XGBoost和pGBRT

Although many engineering optimizations have been adopted in these implementations, the efficiency and scalability are still unsatisfactory when the feature dimension is high and data size is large.

虽然在这些实现中采用了许多工程优化,但在特征维高、数据量大的情况下,效率和可扩展性仍然不理想。

A major reason is that for each feature, they need to scan all the data instances to estimate the information gain of all possible split points, which is very time consuming

一个主要原因是,对于每个特征,他们需要扫描所有的数据实例来估计所有可能的分裂点的信息增益,这是非常耗时的

To tackle this problem, we propose two novel techniques: Gradient-based One-Side Sampling (GOSS) and Exclusive Feature Bundling (EFB).

为了解决这个问题,我们提出了两种新的技术:Gradient-based单边抽样互斥特征捆绑

With GOSS, we exclude a significant proportion of data instances with small gradients, and only use the rest to estimate the information gain. We prove that, since the data instances with larger gradients play a more important role in the computation of information gain, GOSS can obtain quite accurate estimation of the information gain with a much smaller data size.

《减少样本量》在GOSS中,我们排除了相当一部分具有小梯度的数据实例,只使用剩下的数据实例来估计信息增益。我们证明,由于梯度较大的数据实例在信息增益的计算中起着更重要的作用,GOSS可以在更小的数据量下获得相当准确的信息增益估计。

With EFB, we bundle mutually exclusive features (i.e., they rarely take nonzero values simultaneously), to reduce the number of features. We prove that finding the optimal bundling of exclusive features is NP-hard, but a greedy algorithm can achieve quite good approximation ratio (and thus can effectively reduce the number of features without hurting the accuracy of split point determination by much)

《减少特征量》使用EFB,我们将相互排斥的特征捆绑在一起(例如,它们很少同时接受非零值),以减少特征的数量。我们证明了寻找排他特征的最佳捆绑是np困难的,但贪心算法可以获得相当好的近似比(因此可以有效地减少特征的数量,而不会大大损害分裂点确定的准确性)。

We call our new GBDT implementation with GOSS and EFB LightGBM. Our experiments on multiple public datasets show that, LightGBM speeds up the training process of conventional GBDT by up to over 20 times while achieving almost the same accuracy.

Introduction 介绍

In recent years, with the emergence of big data (in terms of both the number of features and the number of instances), GBDT is facing new challenges, especially in the tradeoff between accuracy and efficiency. Conventional implementations of GBDT need to, for every feature, scan all the data instances to estimate the information gain of all the possible split points. Therefore, their computational complexities will be proportional to both the number of features and the number of instances. This makes these implementations very time consuming when handling big data.

近年来,随着大数据的出现(在特征数量和实例数量方面),GBDT面临着新的挑战,特别是在准确性和效率之间的权衡。对于每个特性,GBDT的传统实现需要扫描所有数据实例,以估计所有可能分裂点的信息增益。因此,它们的计算复杂度将与特征的数量和实例的数量成正比。这使得这些实现在处理大数据时非常耗时。

To tackle this challenge, a straightforward idea is to reduce the number of data instances and the number of features. However, this turns out to be highly non-trivial. For example, it is unclear how to perform data sampling for GBDT.

为了应对这一挑战

跟我读论文系列之LightGBM相关推荐

  1. 带你读论文系列之计算机视觉--GoogLeNet

    带你读论文系列之计算机视觉–GoogLeNet 0 闲谈 玩起手机,看着电视,所有的计划都被抛之脑后,此时的快乐是深夜不舍睡下的愧疚.我总是想着明天怎么,而有时不知珍惜当下:总想着那些离开的朋友,而对 ...

  2. 【医学图像分割】读论文系列 1

    [医学图像分割]读论文系列 1 文章目录 [医学图像分割]读论文系列 1 Title Introduction Abstract Keyword Method Experiment Conclusio ...

  3. 读论文系列(二)Convolutional Neural Networks over Tree Structures for Programming Language Processing

    系列文章目录 读论文系列(一)Automated software vulnerability detection with machine learning 文章目录 系列文章目录 Keywards ...

  4. 【一起读论文系列1】基于压缩感知的语音编解码方向研究

    [一起读论文系列1]基于压缩感知的语音编解码方向研究 2109,李俊鑫,基于压缩感知的快速语音编解码方法研究 1207,李尚靖,基于压缩感知的语音数字编码技术研究 引申资料 搜索关键词:compres ...

  5. 带你读论文系列之计算机视觉--DenseNet

    带你读论文系列之计算机视觉–DenseNet 情若能自控,我定会按捺住我那颗吃货的心. 闲谈 今天听了师兄申请博士的经验.第一是感觉历程很心累,压力也很大:二是成功后很喜悦:三是成果很重要,其次是关系 ...

  6. 带你读论文系列之计算机视觉--SENet

    带你读论文系列之计算机视觉–SENet 闲谈 总有那么瞬间思念远方的故人.八月十五中秋节,让我们放下繁忙工作,回家与老人团圆举杯共餐.这是我第一次没有在家过中秋,感觉也还行.现在节日没有什么节日气氛, ...

  7. 跟我读论文系列之XGBoost

    文章目录 理论 TITLE 标题 AUTHOR 作者 ABSTRACT 摘要 INTRODUCTION 介绍 TREE BOOSTING IN A NUTSHELL 简单介绍一下树提升 Regular ...

  8. [论文速读] 图像增强系列:2020 TIP 最新去雾算法(摘要、网络结构图及论文链接)

    [论文速读] 图像增强系列:2020 TIP 最新去雾算法(摘要.网络结构图及论文链接) 本博客先介绍 2020 TIP 最新去雾算法的摘要.网络结构图及论文链接,后续将陆续补充较为详细的内容. 目录 ...

  9. 搞科研,从好好读论文开始:沈向洋带你读论文了

    「或许你永远不知道你以前读过的书能在什么时候派上用场,但请保持阅读,因为阅读的过程也是在你大脑中建立认知的过程.」 对于科研人员来说,读论文是一种必修技能.去年,沈向洋博士曾在线上公开课<You ...

  10. CTC 技术介绍概述——啃论文系列

    CTC 技术介绍概述--啃论文系列 文章目录 CTC 技术介绍概述--啃论文系列 自我介绍 摘要 前言 知识导图 1. 定义 2. 诞生背景 2.1 频谱紧张 例子,wifi的5GHz 2.2 通信干 ...

最新文章

  1. 视频监控日常使用存在哪些故障
  2. Thymeleaf引入公共片段方式
  3. vs2008 调试时不会命中断点,源代码与原始版本不同,解决办法
  4. 陈松松:三种方式教你打造一个行业内10万视频播放量
  5. php能转换音频采样率吗,音频采样频率怎么设置-音频采样率转换软件下载
  6. 编译型语言和解释型语言区别,编译器,解释器的区别
  7. 如何掌握眼神接触技巧?
  8. Python与数据结构[4] - 散列表[1] - 分离链接法的 Python 实现
  9. 调查问卷的JSON模板设计与分数计算的Java实现
  10. 华为云空间兑换码在哪里找_华为云空间在哪里找到
  11. 常州一中训练试题泛做 Part 1
  12. 京东平台小家电用户画像分析报告
  13. div做表格 html5,div+css制作表格
  14. Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取
  15. 目标检测 | YOLO系列超全讲解v1,v2,v3
  16. 华为交换机审计配置_华为交换机AAA配置管理.doc
  17. VS Code快速实现Git PR操作
  18. 前58技术委员会主席多次强调的Java核心,你精通吗?
  19. 【数据结构】循环队列
  20. [前端工坊]第二届京东技术节-前端技术实践专场

热门文章

  1. Java代码题m个小朋友分糖果,巧解“博弈”型算法题:分糖果问题
  2. U3D特效笔记——砸地特效
  3. 关于中小企业上云的思考
  4. 12_Python基础_Python文件读写
  5. m在LTE-A系统载波聚合下的资源分配算法的matlab仿真
  6. ARDUINO IDE,实现字符串解析
  7. Kubernetes(一) - Docker管理工具
  8. ssm+jsp计算机毕业设计学生综合素质评估管理系统l3rnh(程序+lw+源码+远程部署)
  9. pyecharts实现疫情可视化地图学习笔记
  10. python游戏设计论文_02 讲:用 Python 设计第一个游戏