点击上方“AI遇见机器学习”,选择“星标”公众号

重磅干货,第一时间送达

作者丨QvQ

来源丨夕小瑶的卖萌屋

编辑丨极市平台

导读

在图像和自然语言处理领域大展伸手的DNN,却处理表格数据上显得些许逊色。在Kaggle的统计上也能看出,XGBoost和LightGBM这类提升(Boosting)树模型依旧占据主要地位。本文从数据层面、模型本质特点上对这个问题进行了分析。

随着深度神经网络的不断发展,DNN在图像、文本和语音等类型的数据上都有了广泛的应用,然而对于同样非常常见的一种数据——表格数据,DNN却似乎并没有取得像它在其他领域那么大的成功。从Kaggle平台上对数据挖掘竞赛Top团队使用的工具统计上也能看出,XGBoost和LightGBM这类提升(Boosting)树模型依旧占据主要地位。

这种来自GBM类模型的压制力在表格数据上尤为明显,即便算上当今专注于处理表格数据的神经网络模型,Xgboost的性能(速度 & 精度)依旧不是这些神经网络可以“碰瓷”的。

那么,在自然语言领域和图像领域号称超越人的神经网络模型,怎么在表格数据上就变的吭哧瘪肚了呢?今天我们来浅析一下其中可能的原因。

1.数据有何不同?

1.1 什么是表格数据?

表格数据的最大的特点是:异质性(Heterogeneous),即数据的每一列具有不同含义且数据类型不一致,这种异质的表格数据与图像或语言数据(同质数据)相比,其具有密集的数值特征和稀疏的分类特征

1.2 NN处理表格数据的挑战

1) 低质量表格数据往往来自于真实世界的统计,而一旦数据来自真实世界,那么事情便复杂起来。可谓是虚假的数据千篇一律,真实的数据五花八门。脏数据、离群点、样本不均衡、数据空间小等一系列现实问题便很容易涌现出来。

  • inconsistent data

    • missing values

    • outliers

  • expensive

    • class-imbalanced

    • small size

2)缺失或拥有复杂的空间相关性当前主流的NN模型往往是在同质数据中使用归纳偏置,最典型的如卷积神经网络。表格数据集中的变量之间往往不存在空间相关性,或者特征之间的相关性相当复杂和不规则。当使用表格数据时,必须从头开始学习它的结构和特征之间的关系。这也是为什么迁移学习难以在表格数据上奏效的原因。3)强依赖预处理同质数据上的深度学习的一个关键优势是它包含一个隐式表示学习步骤,因此只需要极少的预处理或显式特征构建。然而,当深度神经网络处理表格数据,其性能可能在很大程度上取决于所选择的预处理策略。不当的预处理方式可能导致:

  • 信息缺失,预测性能下降

  • 生成非常稀疏的特征矩阵(如通过使用onehot编码类别特征)导致模型无法收敛

  • 引入先前无序特征的虚假排序信息(如通过使用有序编码方案)

4)特征重要性通常情况下,改变图像的类别需要对许多特征(如像素)进行协调变化,但一个分类(或二进制)特征的最小可能变化可以完全颠覆对表格数据的预测。与深度神经网络相比,决策树算法通过选择单个特征和适当的阈值“忽略”其余数据样本,可以非常好地处理不同的特征重要性。

2.模型偏置有何不同?

归纳偏置:在机器学习中,很多学习算法经常会对学习的问题做一些假设,这些假设就称为 归纳偏置(Inductive Bias) 。因此,归纳偏置可以理解为,从现实生活中观察到的现象中归纳出一定的规则(heuristics),然后对模型做一定的约束,从而可以起到“模型选择”的作用,即从假设空间中选择出更符合现实规则的模型。所以,要理解两个模型在同一数据上的表现差异,就需要理解两个模型归纳偏置的不同。

2.1 实验配置

2.1.1 数据集

新基准参考 45 个表格数据集,选择基准如下 :

  • 异构列,列应该对应不同性质的特征,从而排除图像或信号数据集。

  • 维度低,数据集 d/n 比率低于 1/10。

  • 无效数据集,删除可用信息很少的数据集。

  • I.I.D.(独立同分布)数据,移除类似流的数据集或时间序列。

  • 真实世界数据,删除人工数据集,但保留一些模拟数据集。

  • 数据集不能太小,删除特征太少(<4)和样本太少(<3000)的数据集。

  • 删除过于简单的数据集。

  • 删除扑克和国际象棋等游戏的数据集,因为这些数据集目标都是确定性的。

2.1.2 数据预处理

论文里尽可能少的使用了人工预处理,只应用以下转换:

  • 高斯化特征:对于神经网络训练,采用Scikit-learn的QuantileTransformer对特征进行高斯化处理。

  • 改变回归目标:在回归任务中,当目标变量的分布是重尾时,对其进行对数变换。

  • OneHotEncoder:对于本身不处理类别特征的模型,使用ScikitLearn的OneHotEncoder编码分类特征。

2.2 模型

在基于树的模型中,研究者选择了 3 种 SOTA 模型:Scikit Learn 的 RandomForest,GradientBoostingTrees (GBTs) , XGBoost 。该研究对深度模型进行了以下基准测试:Resnet 、FT Transformer、SAINT 。

FT Transformer:《Revisiting Deep Learning Models for Tabular Data》2021 NIPS。专注于解决表格数据的NN模型。
SAINT:《Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing》 提出一种分离的自注意力神经知识追踪结构,本质还是transformer结构,选它的原因是在一部分表格数据上它有远超transformer的表现。

2.3 归纳偏置

(1)类别特征并不是神经网络的主要弱点图一是在纯数字特征数据集上的表现:

图二是在同时具有数字和分类特征数据集上的表现:

【说明】

  • 虚线对应默认超参数的得分,也是第一次随机搜索迭代。

  • 实线上的每个值对应于最佳模型(在验证集上)经过特定次数的随机搜索迭代后的所有数据集上的平均测试分数。

  • 色带对应这15次随机初始化的最低和最高分数。

【显式结论】

  • 调优超参数并不能使神经网络达到SOTA:基于树的模型对于每个随机搜索都具有优越性,即使经过大量的随机搜索迭代,NN模型相比树模型性能差距仍然很大。

  • 类别特征并不是神经网络的主要弱点:类别特征通常被认为是在表格数据上使用神经网络的一个主要问题。我们在数值变量上的结果只揭示了树型模型和神经网络之间的差距比包含分类变量更小。然而,当只学习数字特征时,这种差距仍然存在。

(2)神经网络倾向于比较平滑的解决方案通过不同尺度的高斯核函数将训练集上的output进行平滑,这样可以有效防止模型学习目标函数的不规则pattern。高斯平滑核:

平滑训练集output方式:

实验结果:

上图显示了模型性能作为平滑核的长度尺度的函数。结果表明,对目标函数进行平滑处理会显著降低基于树的模型的精度,但对神经网络的精度影响不大。这也说明我们数据集中的目标函数不是平滑的,与基于树的模型相比,神经网络很难拟合这些不规则的函数。

这与Rahaman等人[2]的发现一致,他们发现神经网络偏向拟合低频函数。而基于决策树的模型学习分段常数函数,不会表现出这样的偏见。

上图是电力数据集两个最重要特征的决策边界。在这一部分中,我们可以看到RandomForest能够学习MLP无法学习的x轴上的不规则模式(对应于日期特征)。

(3)非信息特征更能影响类似MLP的NN

表格数据集包含许多非信息(uninformative)特征,对于每个数据集,该研究根据特征的重要性会选择丢弃一定比例的特征(通常按随机森林特征重要性排序)。从下图可以看出,去除一半以上的特征对GBT的分类准确率影响不大。

  • 绿线:保留最重要的特征,依次移除最不重要的特征

  • 红线:依次添加上述被移除的特征

可以发现,当在被移除20%特征时,GBT在测试集上的精度都降低的非常小,直到被移除50%特征时,精度下降才逐渐明显,这表明这些特征大部分是无信息增益的。但是从红线的涨幅来看,这些特征又不是完全无用的。

上图可以看到移除非信息特征减少了 MLP (Resnet) 与其他模型(FT Transformers 和基于树的模型)之间的性能差距 ,而添加非信息特征会扩大差距,这表明MLP 对非信息特征的鲁棒性较差

(4)MLP更具旋转不变性与其他模型相比,为什么MLP更容易受到无信息特征的影响?其中一个答案是:MLP 是旋转不变的。当对训练集和测试集特征应用旋转时,在训练集上学习 MLP 并在测试集上进行评估,这一过程是不变的。事实上,任何旋转不变的学习过程都具有最坏情况下的样本复杂度,该复杂度至少在不相关特征的数量上呈线性增长。直观地说,为了去除无用特征,旋转不变算法必须首先找到特征的原始方向,然后选择信息最少的特征。

上图 a 显示了当对数据集进行随机旋转时的测试准确率变化,证实只有 Resnets 是旋转不变的。值得注意的是,随机旋转颠倒了性能顺序,这表明旋转不变性是不可取的。事实上,表格数据通常具有单独含义,例如年龄、体重等。

图 b 中显示:删除每个数据集中最不重要的一半特征(在旋转之前),会降低除 Resnets 之外的所有模型的性能,但与没有删除特征使用所有特征时相比,相比较而言,下降的幅度较小。

模型本质有何不同?

树模型的本质:分段常数函数

决策树在本质上是一组嵌套的if-else判定规则,从数学上看是分段常数函数,对应于用平行于坐标轴的平面对空间的划分。判定规则是人类处理很多问题时的常用方法,这些规则是我们通过经验总结出来的,而决策树的这些规则是通过训练样本自动学习得到的。而正是这种简单的划分使得模型的决策流形(decision manifolds)可以看成是超平面的分割边界,对于表格数据的效果很好。

神经网络的本质:分段线性函数

以最简单的神经网络结构表示的单变量逻辑回归模型来说,中间层是ax+b这种线性表达方式进行拟合的表达能力是非常有限的。

而不管在中间加多少层线性变换,并不能提高其表达能力,最终模型本质上仍然是一个关于x的线性模型。那么如何引入非线性呢?——激活函数。激活函数的引入使神经网络具备了非线性表达的能力。

神经网络强大的本质原因:1)激活函数让线性的神经网络具备了“分段”表达的能力。2)任何函数都可以用“分段”线性函数来逼近。成也强大、败也强大,正是因为神经网络这种过强的拟合能力导致在size通常不大的表格数据上很容易过拟合。对于大规模神经网络来说,中间隐层所生成的“高维特征”甚至有时比原始数据还多。

做个小结

树模型特点

  1. 天然的鲁棒性,对异常点、缺失值不敏感,不需要归一化等操作。

  2. 模型的决策流形(decision manifolds)是可以看成是超平面的分割边界,对于表格数据的效果很好。

  3. 基于贪心的自动化特征选择和特征组合能相比其他ML模型,具有更强的非线性表达能力。

  4. 树的可解释性很好,分裂可视化以及特征重要性等操作,能改善特征工程。进一步优化特征,提升模型性能。

  5. 数据量带来的边际增益不大,容易触及天花板。

NN模型特点

  1. 在语义含义统一的稠密数据上,拥有全自动化的特征工程的能力,包括超强的特征挖掘与特征组合能力。

  2. 极强的数据记忆能力与外推泛化能力。

  3. 对异常值敏感,对于表格数据,强依赖数据预处理。

  4. 不可解释,无法像树模型那种直观展示预测流程,无法推演与优化基础特征。

  5. 过强的非线性中隐含过拟合和噪音。

闻道有先后,术业有专攻,即便强如神经网络也有自己的软肋。但从上述结果其实也可以发现,神经网络不适合处理表格数据仅仅是因为我们还没有掌握合适的方法,神经网络的强大的建模能力仍毋庸置疑。相信总有一天,神经网络模型将一统江湖,三界唯尊!

2022年竞赛打榜,神经网络还是干不过树模型?相关推荐

  1. 2022年竞赛打榜,神经网络还是干不过树模型??

    文 | QvQ 随着深度神经网络的不断发展,DNN在图像.文本和语音等类型的数据上都有了广泛的应用,然而对于同样非常常见的一种数据--表格数据,DNN却似乎并没有取得像它在其他领域那么大的成功.从Ka ...

  2. 2022丘成桐数学竞赛放榜!清华3金10银霸榜

    新智元报道 编辑:桃子 [导读]第13届丘成桐全国大学生数学竞赛放榜,清华以3金10银11铜,总奖牌数24实力霸榜. 在刚刚过去的周末,清华大学举办了第13届「丘成桐全国大学生数学竞赛」总决赛. 清华 ...

  3. CVPR 2022 ActivityNet竞赛冠军:中科院深圳先进院提出高低分双模态行为识别框架...

    来源:新智元 本文约2400字,建议阅读10+分钟本文为CVPR 2022 ActivityNet竞赛冠军的方案详解,该方案主要解决真实监控场景下的低分辨率行为识别. 前言 安防监控是智慧城市的重要组 ...

  4. 豆瓣2022年度影视资源榜单合集,速度保存!

    来张壁纸- ​ 今日分享!记得点赞转发和再看喔! 重点内容我都给大家红色加粗了,方便老铁阅读! 老规矩,复制下面的链接到浏览器打开即可,无下载套路,均可免费下载! 手机微博轻享版绿色版-Android ...

  5. 2022年秋季学期人工神经网络第四次作业

    说明: 本次作业是针对这学期经典神经网络中的内容,主要涵盖竞争神经网络课程内容相关的算法. 完成作业可以使用你所熟悉的编程语言和平台,比如 C,C++.MATLAB.Python等. 作业要求链接: ...

  6. 汇佳学校荣登京领2022中国国际学校特色榜:诠释先进艺体教育理念

    2022年2月18日,"京领2022中国国际学校特色榜"由京领正式发布,北京市私立汇佳学校在京领2022中国国际学校特色榜十大主题榜中,荣登四大特色榜单,分别是:中国国际学校·科研 ...

  7. 感谢有你 | FISCO BCOS 2022年第二季度贡献榜单

    践行开源共创的精神,FISCO BCOS开源社区致力打造开放多元的开源联盟链生态. 目前,社区已汇聚了超70000名社区用户,大家聚集于此碰撞观点.交流技术,围绕FISCO BCOS开发各类实用的应用 ...

  8. 直播界的新玩法:你又套路用户!只要钱到位,榜单全干碎

    今天早上好心市民王先生(公众号:hxsmwxs)在翻看App Store榜单的时候,发现今天凌晨(25号0:00分)榜单更新后有三款应用刷榜,乍一看是两款游戏,一款应用,但好心市民王先生(公众号:hx ...

  9. 怡安发布2022中国最佳ESG雇主榜单,27个雇主品牌上榜 | 美通社头条

    美通社消息:全球知名的专业服务机构怡安集团正式发布2022中国最佳ESG雇主榜单,共有27个雇主品牌榜上有名.其中,20个品牌荣膺"最佳ESG雇主称号",另有7个品牌因在部分领域的 ...

最新文章

  1. 用NVIDIA-TensorRT构造深度神经网络
  2. Android四大基本组件介绍与生命周期
  3. 【阿里巴巴】CBU技术部招聘
  4. 从软件工程的角度解读任正非的新年公开信
  5. 搜索引擎(0xFE)--- 用机器学习再谈排序
  6. 02使用常规步骤编译NanoPiM1Plus的Android4.4.2
  7. Spark Master的注册机制与状态管理
  8. php怎么循环输出二维数组,PHP中遍历二维数组—以不同形式的输出操作
  9. 【LeetCode笔记】226. 翻转二叉树(Java、递归)
  10. vue 监听map数组变化_解决vue无法侦听数组及对象属性的变化问题
  11. 深度学习在58同城首页推荐中的应用
  12. 【网管知识】狼牙抓鸡器中毒后的解决办法
  13. 自动驾驶轨迹预测算法:NeurIPS挑战赛冠军方案
  14. 【JAVA】初识Java
  15. UnityMMO资源整合服务器部署
  16. 电脑键盘部分按键失灵_键盘按键失灵,教您电脑键盘失灵怎么办
  17. 图解|什么是蒙提霍尔问题(三门问题)
  18. 高级程序员必会的程序设计原则 —— 墨菲定律及防呆设计
  19. 《从0到1:CTFer成长之路》SQL注入-2
  20. IOS实现Voip应用后台运行需要的几个配置项

热门文章

  1. 银行承兑汇票会计分录
  2. PDA手持无线POS机,打印条形码小票凭条系统案例
  3. 拼多多新入驻店铺一般多久能出单?
  4. 软件测试_接口测试之协议和端口汇总(3)
  5. python 语音合成
  6. VisualSVN Server版本推荐
  7. win10锁定计算机后黑屏,解决Win10计算机黑屏问题,只有鼠标指针不能进入桌面...
  8. Feko仿真偶极子天线学习笔记
  9. 中国第一届EOS柚子节|EOS王团长中国行北京见面会圆满收官
  10. JavaScript之彻底搞懂DOM与BOM及其区别与用法