机器学习数据分析之-轮廓系数（评估聚类结果）

在学习使用k-means算法进行负载聚类分析时看到了这样的图，查了之后是用轮廓系数来评估分类结果的准确度或者称合适度。

silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度。
取值范围-1到1，值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。
如果大多数结点都有很高的silhouette value，那么聚类适当。若许多点都有低或者负的值，说明分类过多或者过少。
定义
轮廓系数结合了凝聚度和分离度，其计算步骤如下：
1.对于第i个对象，计算它到所属簇中所有其他对象的平均距离，记为ai（体现凝聚度）
2.对于第i个对象和不包含该对象的任意簇，记为bi（体现分离度）
3.第i个对象的轮廓系数为si=（bi-ai）/max(ai,bi)
scikit-learn 中的轮廓系数
对应 scikit-learn 方法是 sklearn.metrics.silhouette_score。该方法是计算所有样本的平均值，另一个方法 silhouette_samples 会返回所有样本的轮廓系数。在文档中提到，轮廓系数需要聚类数大于2，小于(样本数-1)。方法包括几个参数，最终返回一个 float 的轮廓系数，通常是在全部样本上的。

X：二维样本，通常为[n_samples, n_features]，当 metric 设置为”precomputed”时，应为[n_samples, n_samples]方阵
labels：一维矩阵，每个样本所属簇的 label
metric：预计算”precomputed”，或者为一个可调用的函数计算两个实例之间的距离。如果为 string，则必须是metrics.pairwise.pairwise_distances 中 metric 可选的（‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’ 或‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘correlation’, ‘dice’, ‘hamming’, ‘jaccard’, ‘kulsinski’, ‘mahalanobis’, ‘matching’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’）——好多啊。
sample_size：随机取样一部分计算平均值，int 类型
random_state：当sample_size 为非空时用来生成随机采样。给定一个种子，或者使用 numpy.RandomState
**kwds：其他可选的 key-value 参数

参考
http://buptguo.com/2016/05/31/learn-ml-from-scikit-learn-silhouette-analysis/
https://blog.csdn.net/u014470581/article/details/51166758

机器学习数据分析之-轮廓系数（评估聚类结果）相关推荐

轮廓系数——评估聚类模型的性能
本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ 提取码:p57s 轮廓系数轮廓系数用于评估一个聚类模型的性能. 一个好的聚类 ...
ML之kmeans：通过数据预处理(分布图箱线图热图/文本转数字/构造特征/编码/PCA)利用kmeans实现汽车产品聚类分析(SSE-平均轮廓系数图/聚类三维图/雷达图/饼图柱形图)/竞品分析之详细
ML之kmeans:通过数据预处理(分布图箱线图热图/文本转数字/构造特征/编码/PCA)利用kmeans实现汽车产品聚类分析(SSE-平均轮廓系数图/聚类三维图/雷达图/饼图柱形图)/竞品分析之详细 ...
tslearn使用轮廓系数（silhouette_score）评估KShape聚类效果
前言 tslearn和sklearn一样,是一款优秀的机器学习框架,tslearn更偏向于处理时间序列问题,如其聚类模块就包含了DTW(Dynamic Time Warping)等算法及变种,也提供了 ...
K-means聚类原理实现优缺点轮廓系数调优Canopy算法
Kmeans聚类是我最早接触的,也是最简单的机器学习聚类算法了.它是一种无监督学习算法. 原理: 还是先简单过一下Kmeans聚类的过程吧.不像模像样地罗列个一二三四,直接口述一下过程就好:比如我们要 ...
机器学习算法之 K-means、层次聚类，谱聚类
k-means 和层次聚类都属于划分聚类,实际中最常用的是k-means,k-means效果不好的情况下才会采用其他聚类 K-means算法 K-means算法,也称为K-平均或者K-均值,是一种使用 ...
平均聚类系数_Python聚类算法的应用实例
一家批发经销商想将发货方式从每周五次减少到每周三次,简称成本,但是造成一些客户的不满意,取消了提货,带来更大亏损,项目要求是通过分析客户类别,选择合适的发货方式,达到技能降低成本又能降低客户不满意度的 ...
机器学习：聚类算法的模型评估指标：轮廓系数
不同于分类模型和回归,聚类算法的模型评估不是一件简单的事. 在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以使用预测的准确度,混淆矩阵,ROC曲线等指标来进行评估.但无论如何评估,都 ...
聚类效果评估、内部指标（Jaccard系数、FM指数、Rand指数）、外部指标（DB指数、Dunn指数）、轮廓系数（Silhouette Coefficient）
聚类效果评估.内部指标(Jaccard系数.FM指数.Rand指数).外部指标(DB指数.Dunn指数).轮廓系数(Silhouette Coefficient) 目录
kmeans及模型评估指标_如何评估聚类模型？兰德指数、轮廓系数、Calinski Harabaz指数...
我们可以通过对一系列曲目进行聚类来创建歌曲的自动播放列表,我们可以展示如何自动创建相似歌曲的子组.通过我们现有的歌曲知识,我们能够验证该聚类练习的结果. 但是,如果我们对数据没有这种先验知识怎么办?如 ...

机器学习数据分析之-轮廓系数（评估聚类结果）

机器学习数据分析之-轮廓系数（评估聚类结果）相关推荐

最新文章

热门文章