数据过滤


1. 缺失值比率 (Missing Values Ratio)

方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。

2. 低方差滤波 (Low Variance Filter)

与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。

3. 高相关滤波 (High Correlation Filter)

高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。这样,使用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。

4. 随机森林/组合树 (Random Forests)

组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属性经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。对随机森林数据属性的统计评分会向我们揭示与其它属性相比,哪个属性才是预测能力最好的属性。

降维


1. 主成分分析 (PCA)

主成分分析是一个统计过程,该过程通过正交变换将原始的 n 维数据集变换到一个新的被称做主成分的数据集中。变换后的结果中,第一个主成分具有最大的方差值,每个后续的成分在与前述主成分正交条件限制下与具有最大方差。降维时仅保存前 m(m < n) 个主成分即可保持最大的数据信息量。需要注意的是主成分变换对正交向量的尺度敏感。数据在变换前需要进行归一化处理。同样也需要注意的是,新的主成分并不是由实际系统产生的,因此在进行 PCA 变换后会丧失数据的解释性。如果说,数据的解释能力对你的分析来说很重要,那么 PCA 对你来说可能就不适用了。

2. 反向特征消除 (Backward Feature Elimination)

在该方法中,所有分类算法先用 n 个特征进行训练。每次降维操作,采用 n-1 个特征对分类器训练 n 次,得到新的 n 个分类器。将新分类器中错分率变化最小的分类器所用的 n-1 维特征作为降维后的特征集。不断的对该过程进行迭代,即可得到降维后的结果。第k 次迭代过程中得到的是 n-k 维特征分类器。通过选择最大的错误容忍率,我们可以得到在选择分类器上达到指定分类性能最小需要多少个特征。

3. 前向特征构造 (Forward Feature Construction)

前向特征构建是反向特征消除的反过程。在前向特征过程中,我们从 1 个特征开始,每次训练添加一个让分类器性能提升最大的特征。前向特征构造和反向特征消除都十分耗时。它们通常用于输入维数已经相对较低的数据集。

降维方法的比较


最后的准确度与损失率也与选择的数据分析模型有关。因此,最后的降维率与准确度的比较是在三种模型中进行,这三种模型分别是:决策树,神经网络与朴素贝叶斯。通过运行优化循环,最佳循环终止意味着低纬度与高准确率取决于七大降维方法与最佳分类模型。最后的最佳模型的性能通过采用所有特征进行训练模型的基准准确度与 ROC 曲线下的面积来进行比较。

从上表中的对比可知,数据降维算法不仅仅是能够提高算法执行的速度,同时也能过提高分析模型的性能。 在对数据集采用:缺失值降维、低方差滤波,高相关滤波或者随机森林降维时,表中的 AoC 在测试数据集上有小幅度的增长。确实在大数据时代,数据越多越好似乎已经成为公理。我们再次解释了当数据数据集宝航过多的数据噪声时,算法的性能会导致算法的性能达不到预期。移除信息量较少甚至无效信息唯独可能会帮助我们构建更具扩展性、通用性的数据模型。该数据模型在新数据集上的表现可能会更好。

参考文献


  1. 降维算法:PCA、MDS、LDA、lsomap、LLE、t-SNE、Deep Autoencoder Networks
  2. 四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps

多种数据过滤与降维算法相关推荐

  1. ML之DR:基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例

    ML之DR:基于鸢尾花(Iris)数据集利用多种降维算法(PCA/TSVD/LDA/TSNE)实现数据降维并进行二维和三维动态可视化应用案例 目录 基于鸢尾花(Iris)数据集利用多种降维算法(PCA ...

  2. 07_数据降维,降维算法,主成分分析PCA,NMF,线性判别分析LDA

    1.降维介绍 保证数据所具有的代表性特性或分布的情况下,将高维数据转化为低维数据. 聚类和分类都是无监督学习的典型任务,任务之间存在关联,比如某些高维数据的分类可以通过降维处理更好的获得. 降维过程可 ...

  3. python用tsne降维_哈工大硕士实现了 11 种经典数据降维算法,源代码库已开放

    网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码.这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA.LDA.MDS.LLE. ...

  4. std中稳定排序算法_源代码库已开放 | 哈工大硕士生用 Python 实现了 11 种经典数据降维算法...

    转自:AI开发者 网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码.这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA.LDA ...

  5. python 最优化算法库_哈工大硕士生用?Python 实现了 11 种经典数据降维算法,源代码库已开放...

    雷锋网 AI 开发者按:网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码.这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA. ...

  6. lda 协方差矩阵_数据降维算法总结(LDAamp;PCA)

    LDA 概述 LDA(Linear Discriminant Analysis),线性判别分析.LDA是一种监督学习的降维技术.主要用于数据预处理中的降维.分类任务.LDA的目标是最大化类间区分度的坐 ...

  7. 随机邻域嵌入_诠释数据降维算法:一文讲尽t-分布邻域嵌入算法(t-SNE)如何有效利用-阿里云开发者社区...

    (文中所有截图,都有华丽的动态效果,详情请点击原文:http://distill.pub/2016/misread-tsne/ 查看) t-分布领域嵌入算法(t-SNE, t-distributed ...

  8. lpp降维算法matlab,dimension-reduct method 多种降维算法,包括lle,lpp,ltsa matlab 238万源代码下载- www.pudn.com...

    文件名称: dimension-reduction-method下载 收藏√  [ 5  4  3  2  1 ] 开发工具: matlab 文件大小: 857 KB 上传时间: 2014-11-05 ...

  9. 【机器学习】简述多种降维算法

    [转载请注明出处]chenrudan.github.io 最近看了一些关于降维算法的东西,本文首先给出了七种算法的一个信息表,归纳了关于每个算法可以调节的(超)参数.算法主要目的等等,然后介绍了降维的 ...

最新文章

  1. 笔记-高项案例题-2019年下-计算题
  2. rabbitmq如何保证消息不丢失_RabbitMQ的去重与防止消息的丢失
  3. Liferay –简单主题开发
  4. maven 国内私服
  5. Principle --03
  6. python中的copy模块(浅复制和深复制)
  7. 初三学生什么时候上一对一效果最好?
  8. Impala的操作命令之 内外shell
  9. 100道精选面试题,教你怎样轻松晋级!
  10. 使用Linq作为rdlc报表的数据源
  11. C语言实验源程序保存,c语言实验1程序开发环境.doc
  12. 电子元器件图片、名称、符号图形对照
  13. 《Microsoft Word》进阶技巧:如何设置文档视图
  14. Android 拦截Home键的常用方法
  15. 亲测成功 office 2007 安装问题 无法找到OfficeLR.cab/OfficeMUI.msi
  16. libuv访问mysql_libuv中的QUEUE
  17. 分析编程题c语言,二级C语言部分上机编程题详细分析
  18. Zookeeper的四字命令
  19. 图像数据集标注学习笔记
  20. 国家天文台结盟阿里云:计算100亿光年的数字宇宙

热门文章

  1. UE4VR菜单键控制UI的打开与关闭(HTC Vive手柄)
  2. 数位dp的概念和模板
  3. 编码器M法测速仿真(Simulink)
  4. linux iscsi iqn号路径,Iscsi中常见概念
  5. 直接转矩控制matlab仿真,基于matlab的异步(感应)电机直接转矩控制系统毕业论文+仿真源码+仿真模型...
  6. androidstudio图片居中_[Android]Android 布局中如何让图片和文字居中显示?
  7. 2022前端应该掌握的10个 JS 小技巧
  8. Ubuntu20.04切换源
  9. 2023最新信息管理毕业设计题目汇总
  10. Python爬虫和数据分析,石油原油加工产品产量数据处理分析