无监督特征选择算法综述
无监督特征选择算法
Filter方法
只使用数据的内在属性,不使用聚类等其他辅助方法
速度快
单变量
Information based methods
- SUD(Sequential backward selection method for Unsupervised Data)
- 基于距离相似度的熵值作为指标,进行相关性排序,选择特征
- SVD-Entropy
- 过其奇异值来测量原始数据矩阵的熵,评估每个特征对熵的贡献,并根据它们各自的熵值对特征进行排序。
- 三种选择最终特征子集的不同方法:简单排序、向前选择和向后消除
- Representation Entropy
- 表示熵是数据集中信息压缩的一种度量
Spectral-similarity based methods
拉普拉斯评分。在拉普拉斯算子中,特征的重要性通过其方差和局部保持能力来评估,在拉普拉斯算子中,特征的重要性通过其方差和局部保持能力来评估。
- SPEC (SPECtrum decomposition)
- USFSM (Unsupervised Spectral Feature Selection Method for mixed data)
多变量
Statistical/information based methods
- FSFS (Feature Selection using Feature Similarity)
- 将原始特征集划分成簇,使得同一簇中的特征高度相似,而不同簇中的特征不相似
- 计算每个特征的k-NN特征。然后,选择具有最紧凑子集的特征,并且丢弃其k-NN最近特征
- RRFS (Relevance Redundancy Feature Selection),
- 该方法分两步选择特征。在该方法中,首先,根据相关性度量对特征进行排序。然后,在第二步中,按照在前一步中生成的顺序,使用特征相似性度量来评估特征,以量化它们之间的冗余度。之后,选择冗余度最低的前p个特征。
Bio-inspired methods
- UFSACO (Unsupervised Feature Selection based on Ant Colony Optimization)
- 遗传算法优先选择高信息素值和低相似性,直到达到预先指定的停止标准(迭代次数)。最后,选择那些具有最高信息素值的特征
- MGSACO (Microarray Gene Selection based on Ant Colony Optimiza-
tion) - RR-FSACO (Relevance-Redundancy Feature Selection based on
ACO) - UPFS (Unsupervised Probabilistic Feature Selection using ant colony optimization)
Spectral/sparse learning methods
- mR-SP (minimum-Redundancy SPectral feature selection)
- 结合SPEC排序和最小冗余最优性准则的特征选择方法
- LLDA-RFE (Laplacian Linear Discriminant Analysis-based Recursive Feature Elimination)
- 该方法利用对象之间的相似性,将线性判别分析(LDA)扩展到无监督情况(LLDA)。其思路是递归地删除LLDA判别向量绝对值最小的特征,以识别可能揭示样本中聚类的特征。
- MCFS (Multi-Cluster Feature Selection)
- MRSF (Minimize the feature Redundancy for Spectral Feature selection)
- UDFS(Unsupervised Discriminative Feature Selection algorithm)
- 通过同时利用离散矩阵和特征相关性中包含的判别信息进行特征选择。
- NDFS (Nonnegative Discriminative Feature Selection)
- RUFS (Robust Unsupervised Feature Selection)
- 同时实现鲁棒聚类和鲁棒特征选择。
- SPNFSR (Structure-Preserving Non-negative Feature Self-Representation)
Wrapper方法
使用聚类算法评估特征子集
计算量较大
Sequential methods
- SS-SFS(Simplified Silhouette Sequential Forward Selection)
- 该方法根据简化轮廓准则选择质量最好的特征子集。在该方法中,使用前向选择搜索来生成特征子集。使用k-means聚类算法对每个特征子集进行聚类,并通过simplied-silhouette准则测量的聚类质量来评价特征子集的质量
Bio-inspired methods
- ELSA(evolutionary local selection algorithm)
- 一种基于k-means和高斯混合聚类算法的进化局部选择算法,来搜索特征子集和聚类数目
- multi-objective genetic algorithm (MOGA)
Iterative
LLC-fs (Local Learning-based Clustering algorithm with feature selection)
EUFS (Embedded Unsupervised Feature Selection)
- 通过稀疏学习将特征选择直接嵌入到聚类算法中
DGUFS (Dependence Guided Unsupervised Feature Selection)
Hybrid方法
综合上面两种方法,在计算速度和模型效果之间做一个折衷
- BFK( a hybrid UFS method non-based on ranking)
- 该方法从包装器阶段开始,通过在用户指定的集群范围内的数据集上运行kmeans聚类算法。采用简化轮廓准则对聚类进行评价,并选取值最高的聚类。随后,在滤波阶段,利用马尔可夫方法,通过贝叶斯网络选择一个特征子集
常用用于分类和聚类的特征选择方法
不同领域的特征选择算法应用
无监督特征选择算法综述相关推荐
- 服务于离群点检测的无监督特征选择值-特征层次耦合模型
Unsupervised Feature Selection for Outlier Detection by Modelling Hierarchical Value-Feature Couplin ...
- 机器学习算法_无监督机器学习算法:主成分分析
之前我们曾经讲过,无监督学习是一种不使用标记数据(无目标变量)的机器学习.因此,算法的任务是在数据本身中寻找模式.无监督机器学习算法的两种主要类型分别是使用主成分分析的降维算法和聚类算法(包括K-Me ...
- 无监督聚类算法该如何评价
学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标.例如:正确率.召回率.精准率.ROC曲线.AUC曲线.但是几乎没有任何教材上有 ...
- 手把手教你在多种无监督聚类算法实现Python(附代码)
来源: 机器之心 本文约2704字,建议阅读6分钟. 本文简要介绍了多种无监督学习算法的 Python 实现,包括 K 均值聚类.层次聚类.t-SNE 聚类.DBSCAN 聚类. 无监督学习是一类用于 ...
- dbscan和谱聚类_R 无监督聚类算法(1)K-means和层次聚类
首先我们要解决几个问题 聚类算法主要包括哪些算法? 主要包括:K-means.DBSCAN.Density Peaks聚类(局部密度聚类).层次聚类.谱聚类. 什么是无监督学习? • 无监督学习也是相 ...
- 9种有监督与3种无监督机器学习算法
机器学习作为目前的热点技术广泛运用于数据分析领域,其理论和方法用于解决工程应用的复杂问题.然而在机器学习领域,没有算法能完美地解决所有问题(数据集的规模与结构.性能与便利度.可解释性等不可能三角),识 ...
- 关键词短语生成的无监督方法01——综述
2021SC@SDUSC 目录 一.项目背景 二.项目目的 三.工作实现 1.任务目标 2.思路启发 3.关键方法--AutoKeyGen (1)功能 (2)具体实现 *训练模型* *使用模型* 4. ...
- 图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟 报道 | 公众号 CVLianMeng 转载于 :专知 AI博士笔记系列推荐 ...
- AIOps指标异常检测之无监督算法
随着系统规模的变大.复杂度的提高.监控覆盖的完善,监控数据量越来越大,运维人员无法从海量监控数据中发现质量问题.智能化的异常检测就是要通过AI算法,自动.实时.准确地从监控数据中发现异常,为后续的诊断 ...
- 聚类算法(无监督算法)
一.聚类算法简介 聚类的基本思想:对于给定的M个样本的数据集,给定聚类(簇)的个数K(K<M),初始化每个样本所属的类别,再根据一定的规则不断地迭代并重新划分数据集的类别(改变样本与簇的类别关系 ...
最新文章
- 工业机器人演示码垛和卸垛_浅谈饲料自动码垛机的应用及正确操作方法
- 后台开发必读书籍--计算机操作系统
- Spring中毒太深,离开Spring我居然连最基本的接口都不会写了
- 大剑无锋之如何评判一个算法的优劣【面试推荐】
- finally语句与return语句的执行顺序
- 收藏 | 在yolov5上验证一些不成熟的想法
- 贵安新区构建大数据+物联网+智能制造产业链
- 【Redis笔记】数据结构与对象:链表
- linux sed命令_Linux sed命令用法与示例
- 64位CentOS6.5下Eclipse用Java连接mysql
- 网络安全态势感知(NSSA)----引言
- 空间曲线曲率算法c语言,第一章第四节空间曲线曲率计算公式及推导
- 【php导出excel,大量导出,文本格式】
- mysql 全文索引 使用_MySql全文索引
- 收藏——硬币(五大天王和四小龙)
- 清华“姚班”大佬豆瓣征婚被网暴
- STM32_BKP备份数据
- 数据结构与算法--哈夫曼树应用
- iconv命令的使用方法
- 云南师范大学计算机专硕,云南师范大学考研难吗?一般要什么水平才可以进入?...