KS-检验(Kolmogorov-Smirnov test) -- 检验数据是否符合某种分布

Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。
KS检验与t-检验之类的其他方法不同是KS检验不需要知道数据的分布情况,可以算是一种非参数检验方法。当然这样方便的代价就是当检验的数据分布符合特定的分布事,KS检验的灵敏度没有相应的检验来的高。在样本量比较小的时候,KS检验最为非参数检验在分析两组数据之间是否不同时相当常用。
PS:t-检验的假设是检验的数据满足正态分布,否则对于小样本不满足正态分布的数据用t-检验就会造成较大的偏差,虽然对于大样本不满足正态分布的数据而言t-检验还是相当精确有效的手段。

KS检验是如何工作的?

  1. 首先观察下分析数据
    对于以下两组数据:
    controlB={1.26, 0.34, 0.70, 1.75, 50.57, 1.55, 0.08, 0.42, 0.50, 3.20, 0.15, 0.49, 0.95, 0.24, 1.37, 0.17, 6.98, 0.10, 0.94, 0.38}
    treatmentB= {2.37, 2.16, 14.82, 1.73, 41.04, 0.23, 1.32, 2.91, 39.41, 0.11, 27.44, 4.51, 0.51, 4.50, 0.18, 14.68, 4.66, 1.30, 2.06, 1.19}
    对于controlB,这些数据的统计描述如下:
    Mean = 3.61
    Median = 0.60
    High = 50.6 Low = 0.08
    Standard Deviation = 11.2
    可以发现这组数据并不符合正态分布, 否则大约有15%的数据会小于均值-标准差(3.61-11.2),而数据中显然没有小于0的数。

  2. 观察数据的累计分段函数(Cumulative Fraction Function)
    对controlB数据从小到大进行排序:
    sorted controlB={0.08, 0.10, 0.15, 0.17, 0.24, 0.34, 0.38, 0.42, 0.49, 0.50, 0.70, 0.94, 0.95, 1.26, 1.37, 1.55, 1.75, 3.20, 6.98, 50.57}。10%的数据(2/20)小于0.15,85%(17/20)的数据小于3。所以,对任何数x来说,其累计分段就是所有比x小的数在数据集中所占的比例。下图就是controlB数据集的累计分段图

    可以看到大多数数据都几种在图片左侧(数据值比较小),这就是非正态分布的标志。为了更好的观测数据在x轴上的分布,可以对x轴的坐标进行非等分的划分。在数据都为正的时候有一个很好的方法就是对x轴进行log转换。下图就是上图做log转换以后的图:

    将treatmentB的数据也做相同的图(如下),可以发现treatmentB和controlB的数据分布范围大致相同(0.1 - 50)。但是对于大部分x值,在controlB数据集中比x小的数据所占的比例比在treatmentB中要高,也就是说达到相同累计比例的值在treatment组中比control中要高。KS检验使用的是两条累计分布曲线之间的最大垂直差作为D值(statistic D)作为描述两组数据之间的差异。在此图中这个D值出现在x=1附近,而D值为0.45(0.65-0.25)。

    值得注意的是虽然累计分布曲线的性状会随着对数据做转换处理而改变(如log转换),但是D值的大小是不会变的。

  3. 百分比图(percentile plot)
    估算分布函数肩形图(Estimated Distribution Function Ogive)是一种累计分段图的替代方式。其优势在于可以让你使用概率图纸作图(坐标轴经过特殊分段处理,y轴上的数值间隔符合正态分布),从而根据概率在y轴上的分布可以直观的判断数据到底有多符合正态分布,因为正态分布的数据在这种坐标上是呈一条直线。
    那么这种图是如何画的呢?
    假设我们有这5个数{-0.45, 1.11, 0.48, -0.82, -1.26},从小到大对它们进行排序,{ -1.26, -0.82, -0.45, 0.48, 1.11 }。0.45是中位数,百分比为0.5,而0.45的累计分布函数中占了0.4到0.6的区间。根据数据x在数据集(N)中排位r可以计算x的百分数(percentile)为r/(N+1)。将上述数据与他们的百分数配对,得到{ (-1.26,.167), (-0.82,.333), (-0.45,.5), (0.48,.667), (1.11,.833) }。然后将各点之间用直线连接就是百分比图了。如下图中红线所示(另一条线为累计分段曲线)。

    treatmentB的数据近似对数正态分布,其几何均值为2.563,标准差为6.795。该数据的百分图(红)与其近似的对数正态分布曲线(蓝)如下。

    由于数据近似正态分布,所以对其采用t-检验是最佳的检验方法。

如何使用KS检验
在R中可以使用ks.test()函数。

与类似的分布检验方式比较

  • 经常使用的拟合优度检验和Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验和Lilliefor检验。
  • Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本,而Lilliefor检验可以检验是否来自未知总体。
  • Shapiro-Wilk检验和Lilliefor检验都是进行大小排序后得到的,所以易受异常值的影响。
  • Shapiro-Wilk检验只适用于小样本场合(3≤n≤50),其他方法的检验功效一般随样本容量的增大而增大。
  • 拟合优度检验和Kolmogorov-Smirnov检验都采用实际频数和期望频数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov检验只适用于连续和定量数据。
  • 拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间划分无关。

参考链接:
http://www.physics.csbsju.edu/stats/KS-test.html
http://blog.sina.com.cn/s/blog_403aa80a01019ly5.html

Matlab中的数据分布KS检验相关推荐

  1. 单样本KS检验,案例分析及Matlab可视化

    Kolmogorov-Smirnov是比较一个经验分布与理论分布或者两个观测值分布的检验方法.其原假设H0:两个数据分布一致或者数据符合理论分布. 对于单样本KS检验,检验统计量为,当根据观测值计算出 ...

  2. matlab算置信带,Kolmogorov-Smirnov检验置信带在Matlab中的实现

    Kolmogorov-Smirnov检验置信带在Matlab中的实现 张三 (北京交通大学土木建筑工程学院,北京100044) 摘要:K-S检验是非参数检验的一个十分精确的方法,构造高精度的基于K-S ...

  3. ks检验正态分布结果_KS检验及其在机器学习中的应用

    KS检验及其在机器学习中的应用 什么是KS检验 Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布.在 ...

  4. MATLAB编程实现P-Ⅲ分布:拟合+密度+分布函数+KS检验

    MATLAB编程实现P-Ⅲ分布 1 概述 1.1 皮尔逊Ⅲ型分布(P-Ⅲ型分布) 1.2 参数估计 1.2.1 矩法 1.2.2 三点法 1.2.3 权函数法 1.2.4 概率权重法 1.3 重点问题 ...

  5. 【假设检验】MATLAB实现K-S检验

    MATLAB实现K-S检验 1 K-S检验 2 单样本的K-S检验 2.1 kstest函数调用格式 2.2 案例 3 双样本的K-S检验 3.1 kstest2函数调用格式 3.2 案例 4 讨论 ...

  6. KS检验及其在机器学习中的应用

    KS检验及其在机器学习中的应用 什么是KS检验 Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布.在 ...

  7. 邹检验 matlab,科学网—Matlab中一个很有用的函数:regionprops - 邹兴文的博文

    Matlab中一个很有用的函数:regionprops 已有 6712 次阅读 2010-1-30 22:52 |个人分类:开发经验|系统分类:科研笔记| 有用的函数, regionprops Mat ...

  8. matlab的k s检验,K-S 检验(Kolmogorov–Smirnov  kurtosis-skewness)

    本文与普通的讲述 K-S 检验的文章略有不同,分为两部分: (1). 针对大部分分布的 Kolmogorov–Smirnov 检验(真正的K-S检验) (2). 仅适用于高斯分布的基于分布曲线形状的  ...

  9. 数据集分布评估-KDE (核密度估计)、KS检验

    参考: https://zhuanlan.zhihu.com/p/368073953 https://blog.csdn.net/u014028070/article/details/75171108 ...

最新文章

  1. miller_rabin_素性测试
  2. 多元函数严格凹 海塞矩阵正定_海森矩阵的应用:多元函数极值的判定
  3. Web前端培训分享:Web前端到底是什么?
  4. 辅助类BinaryTreeNodeIndex(用index索引代替指针)
  5. 高并发服务器开源项目,百万级高并发WebRTC流媒体服务器设计与开发(示例代码)...
  6. 计算机二级考vb试题,2017计算机二级考试VB练习题及答案
  7. Java回顾之JDBC
  8. 使用Python内置浏览器缓存cookies并做更新
  9. 网易云音乐灰色歌曲在线听的方法
  10. CH340G版USB转串口自动下载器原理图
  11. Systrace抓取
  12. PROFINET转EtherCAT网关方案设计
  13. 在线文档转换接口 word,excel,ppt等在线文件转pdf、png
  14. 谷歌官方Android模拟器强化x86处理器性能 Android 11 可以运行arm 应用了
  15. 小米MIUI夺冠!鲁大师发布2021年Q3季度UI排行!
  16. linux怎么给用户777权限,linux下 chmod 777 中777这个数字是怎么出来的
  17. 摘录 | 《记一忘三二》
  18. wireshark 找不到wifi无线网卡的解决方法
  19. 09-01 面向对象编程
  20. android 画图一

热门文章

  1. 问题解决 | img 无法显示 大小显示0x0
  2. 日常开发中,你需要掌握的git使用技巧
  3. 计算三位数的水仙花数(个,十,百位数的立方和等于该数本身)
  4. js内存泄漏的几种常见情况
  5. 基于JAVA云南美食管理系统计算机毕业设计源码+系统+lw文档+部署
  6. 泰坦尼克船员生存预测
  7. 今天去了irc://freenode/#fedora-cn
  8. 25年精细创新,打印让生活更美好
  9. oracle修改表字段名备注_Oracle修改表或者字段的注释
  10. 艺考生文化课分数线丨各个省份去年的艺考生文化分数线最低分是多少?