在学习使用k-means算法进行负载聚类分析时看到了这样的图,查了之后是用轮廓系数来评估分类结果的准确度或者称合适度。

silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度。
取值范围-1到1,值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。
如果大多数结点都有很高的silhouette value,那么聚类适当。若许多点都有低或者负的值,说明分类过多或者过少。
定义
轮廓系数结合了凝聚度和分离度,其计算步骤如下:
1.对于第i个对象,计算它到所属簇中所有其他对象的平均距离,记为ai(体现凝聚度)
2.对于第i个对象和不包含该对象的任意簇,记为bi(体现分离度)
3.第i个对象的轮廓系数为si=(bi-ai)/max(ai,bi)
scikit-learn 中的轮廓系数
对应 scikit-learn 方法是 sklearn.metrics.silhouette_score。该方法是计算所有样本的平均值,另一个方法 silhouette_samples 会返回所有样本的轮廓系数。在文档中提到,轮廓系数需要聚类数大于2,小于(样本数-1)。方法包括几个参数,最终返回一个 float 的轮廓系数,通常是在全部样本上的。

X:二维样本,通常为[n_samples, n_features],当 metric 设置为”precomputed”时,应为[n_samples, n_samples]方阵
labels:一维矩阵,每个样本所属簇的 label
metric:预计算”precomputed”,或者为一个可调用的函数计算两个实例之间的距离。如果为 string,则必须是metrics.pairwise.pairwise_distances 中 metric 可选的(‘cityblock’, ‘cosine’, ‘euclidean’, ‘l1’, ‘l2’, ‘manhattan’ 或‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘correlation’, ‘dice’, ‘hamming’, ‘jaccard’, ‘kulsinski’, ‘mahalanobis’, ‘matching’, ‘minkowski’, ‘rogerstanimoto’, ‘russellrao’, ‘seuclidean’, ‘sokalmichener’, ‘sokalsneath’, ‘sqeuclidean’, ‘yule’)——好多啊。
sample_size:随机取样一部分计算平均值,int 类型
random_state:当sample_size 为非空时用来生成随机采样。给定一个种子,或者使用 numpy.RandomState
**kwds:其他可选的 key-value 参数

参考
http://buptguo.com/2016/05/31/learn-ml-from-scikit-learn-silhouette-analysis/
https://blog.csdn.net/u014470581/article/details/51166758

机器学习数据分析之-轮廓系数(评估聚类结果)相关推荐

  1. 轮廓系数——评估聚类模型的性能

    本文所用文件的链接 链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ 提取码:p57s 轮廓系数 轮廓系数用于评估一个聚类模型的性能. 一个好的聚类 ...

  2. ML之kmeans:通过数据预处理(分布图箱线图热图/文本转数字/构造特征/编码/PCA)利用kmeans实现汽车产品聚类分析(SSE-平均轮廓系数图/聚类三维图/雷达图/饼图柱形图)/竞品分析之详细

    ML之kmeans:通过数据预处理(分布图箱线图热图/文本转数字/构造特征/编码/PCA)利用kmeans实现汽车产品聚类分析(SSE-平均轮廓系数图/聚类三维图/雷达图/饼图柱形图)/竞品分析之详细 ...

  3. tslearn使用轮廓系数(silhouette_score)评估KShape聚类效果

    前言 tslearn和sklearn一样,是一款优秀的机器学习框架,tslearn更偏向于处理时间序列问题,如其聚类模块就包含了DTW(Dynamic Time Warping)等算法及变种,也提供了 ...

  4. K-means聚类原理实现 优缺点 轮廓系数 调优Canopy算法

    Kmeans聚类是我最早接触的,也是最简单的机器学习聚类算法了.它是一种无监督学习算法. 原理: 还是先简单过一下Kmeans聚类的过程吧.不像模像样地罗列个一二三四,直接口述一下过程就好:比如我们要 ...

  5. 机器学习算法之 K-means、层次聚类,谱聚类

    k-means 和层次聚类都属于划分聚类,实际中最常用的是k-means,k-means效果不好的情况下才会采用其他聚类 K-means算法 K-means算法,也称为K-平均或者K-均值,是一种使用 ...

  6. 平均聚类系数_Python聚类算法的应用实例

    一家批发经销商想将发货方式从每周五次减少到每周三次,简称成本,但是造成一些客户的不满意,取消了提货,带来更大亏损,项目要求是通过分析客户类别,选择合适的发货方式,达到技能降低成本又能降低客户不满意度的 ...

  7. 机器学习:聚类算法的模型评估指标:轮廓系数

    不同于分类模型和回归,聚类算法的模型评估不是一件简单的事. 在分类中,有直接结果(标签)的输出,并且分类的结果有正误之分,所以使用预测的准确度,混淆矩阵,ROC曲线等指标来进行评估.但无论如何评估,都 ...

  8. 聚类效果评估、内部指标(Jaccard系数、FM指数、Rand指数)、外部指标(DB指数、Dunn指数)、轮廓系数(Silhouette Coefficient)

    聚类效果评估.内部指标(Jaccard系数.FM指数.Rand指数).外部指标(DB指数.Dunn指数).轮廓系数(Silhouette Coefficient) 目录

  9. kmeans及模型评估指标_如何评估聚类模型?兰德指数、轮廓系数、Calinski Harabaz指数...

    我们可以通过对一系列曲目进行聚类来创建歌曲的自动播放列表,我们可以展示如何自动创建相似歌曲的子组.通过我们现有的歌曲知识,我们能够验证该聚类练习的结果. 但是,如果我们对数据没有这种先验知识怎么办?如 ...

最新文章

  1. java 内存测试_请你说一下java jvm的内存机制
  2. JSunpack-n的安装与简单使用
  3. 如何知道mysql的地址_如何知道自己的计算机上mysql的地址?
  4. 我的log4net使用手册(转自 http://blog.csdn.net/lyjcn/archive/2009/08/11/4432833.aspx)
  5. git版本回退(3)
  6. 解决EPSON LQ-630k打印机打印方向相反的问题(预览正常打印就不行)
  7. EXPLAIN各个字段是什么意思
  8. C++ 标准库的双向链表
  9. 苹果手机导出照片到电脑上
  10. 再聊虚拟资源知识付费赚钱
  11. 电商运营竞品分析不会做?6个步骤教会你
  12. Handle的详细用法
  13. mysql 1代表true(MySQL数据类型详解)
  14. 织梦dedecms 仿制目标网站首页
  15. [数据结构] UVa1471 Defense Lines 防线
  16. 清华大学计算机刘云鹏,除北京外,咱省是清华大学最大的生源地!为啥河南高分学子青睐清华,来看看...
  17. Vue cli项目,使用富文本编辑器WangEditor,8小时摸爬滚打后,弃坑Tinymce、UEditor、Quill
  18. 中鑫吉鼎|不同的年龄该如何进行资产配置
  19. iview使用Steps组件路由报错问题
  20. URL解码:比照法的问题

热门文章

  1. ajax的post请求出现403错误,如何解决Django中ajax发送post请求报403错误CSRF验证失败的问题...
  2. Python---序列化的模块pickle(标准模块)
  3. 低速接口之UART串口
  4. windows_AD域简单搭建初期配置
  5. Cesium Vue 经纬度小数转换成具体的度分秒
  6. Spring中bean的含义是什么啊?
  7. 因变量 方差膨胀系数_SPSS技术:多重线性回归模型;极端值与多重共线性
  8. 13条只有程序员才能懂的内涵段子
  9. 亚马逊广告API对接概述
  10. 分布式事务框架Seata及EasyTransaction架构的比对思考