介绍:

在统计理论中,肖维勒准则(以William Chauvenet命名)是评估一组实验数据(一组异常值)是否可能是虚假的一种手段。

肖维勒准则背后的想法是找到一个以正态分布的均值为中心的概率带,它应该合理地包含数据集的所有n个样本。通过这样做,来自位于该概率带之外的n个样本的任何数据点可以被认为是异常值,从数据集中移除,并且可以计算基于剩余值和新样本大小的新的均值和标准偏差。

这种异常值的识别将通过找到与平均值(max)周围的概率带边界相对应的标准偏差的数量并将该值与可疑异常值与平均值之间的差值的绝对值进行比较来实现。通过样本标准差。(公式1)

公式1:

解释:

  • Dmax = 允许的最大偏差,
  • | . | = 绝对值,
  • x = 怀疑异常值,
  • μ = 样本均值,
  • σ = 样本标准差.

为了被认为包括样本中的所有n个观测值,概率带(以均值为中心)必须仅考虑样本(如果n  = 3,则在概率带中必须仅考虑2.5个样本)。

实际上我们不能有部分样本,因此n  = 3时为2.5 )约为  n。任何小于的东西大约是n  - 1(如果n  = 3 则为2)并且无效,因为我们想要找到包含n个观测值的概率带,而不是n  - 1个样本。简而言之,我们正在寻找概率P,等于样本中的(公式2)。

公式2:

解释:

  • P =以样本均值为中心的概率带,
  • n =样本量。

数量对应于由正态分布的两个尾部表示的组合概率,其落在概率带  P之外。为了找到与P相关的标准偏差水平,由于其对称性,仅需要分析正态分布的尾部之一的概率(公式3)。

公式3:

解释:

  • z =由正态分布的一条尾部表示的概率,
  • n =样本量。

等式1类似于Z得分方程(公式4)。

公式4:

解释:

  • Z = z-score,
  • x =样本值,
  • μ = 0(标准正态分布的平均值),
  • σ = 1(标准正态分布的标准偏差)。

基于等式4,找到max(Eq.1)在z得分表中找到对应于z的z得分。 max等于z的z分数。使用此方法可以确定任何样本大小的max。在Excel中,可以使用以下公式找到max = ABS(NORM.S.INV(1/(4n))).(NORM.S.INV函数:返回标准正态累积分布函数的反函数值。 该分布的平均值为 0,标准偏差为 1。)

计算:

要应用Chauvenet标准,首先要计算观察数据的平均值和标准差。根据可疑数据与平均值的差异,使用正态分布函数(或其表)确定给定数据点处于可疑数据点值的概率。将此概率乘以所采用的数据点数。如果结果小于0.5,则可以丢弃可疑数据点,即,如果从均值获得特定偏差的概率小于,则可以拒绝读数。

示例:

例如,假设在若干试验中通过实验测量值为9,10,10,10,11和50.平均值为16.7,标准偏差为16.34。50与16.7相比有33.3,稍微超过两个标准偏差。从平均值获取数据超过两个标准偏差的概率大约为0.05。进行了六次测量,因此统计值(数据大小乘以概率)为0.05×6 = 0.3。因为0.3 <0.5,根据Chauvenet的标准,应该丢弃50的测量值(留下10的新均值,标准差为0.7)。

缺点:

删除异常值数据是一项备受争议的做法,许多科学家和科学教师不赞成这种做法。虽然Chauvenet的标准提供了一种客观和定量的数据拒绝方法,但它并没有使这种做法在科学上或方法上更合理,特别是在小型集合或无法假定正态分布的情况下。在实践领域中,拒绝异常值是更可接受的,其中正在测量的过程的基础模型和测量误差的通常分布是确信的。

参考:https://en.wikipedia.org/wiki/Chauvenet%27s_criterion#Example

【数据异常校验】肖维勒准则(Chauvenet Criterion)处理异常数据相关推荐

  1. 肖维勒准则matlab_莱因达 ( PauTa)准则、格拉布斯 ( Grubbs)准则、肖维纳 (Chauvenet)准则 三者的区别...

    展开全部 1.检测数量不同32313133353236313431303231363533e78988e69d8331333431363566 莱因达准则是以三倍测量列的标准偏差为极限取舍标准,其给定 ...

  2. (转)格拉布斯准则(Grubbs Criterion)处理数据异常

    (转)格拉布斯准则(Grubbs Criterion)处理数据异常 参考文章: (1)(转)格拉布斯准则(Grubbs Criterion)处理数据异常 (2)https://www.cnblogs. ...

  3. 【数据异常校验】T检验或T测试(T-test)

    目录 历史 使用 假设 未配对和配对的双样本t-test 独立(未配对)样本 配对样本 计算 单样本t检验 回归线的斜率 独立的双样本t检验 替代t-测试位置问题 多变量测试 算法实现 例子 T测试是 ...

  4. 学习Spring Boot:(十)使用hibernate validation完成数据后端校验

    前言 后台数据的校验也是开发中比较注重的一点,用来校验数据的正确性,以免一些非法的数据破坏系统,或者进入数据库,造成数据污染,由于数据检验可能应用到很多层面,所以系统对数据校验要求比较严格且追求可变性 ...

  5. springboot使用JSR303对数据进行校验

    文章目录 1. JSR303的校验注解 2. 使用JSR303对数据进行校验步骤 ①:给bean添加校验注解 ②:在Controller层开启@Valid验证注解 ③:统一异常处理 3. 分组校验(多 ...

  6. 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc

    数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...

  7. 大屏数据可视化测试-数据准确性校验

    什么是数据可视化: 首先,数据可视化就是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的一种理论.方法和技术.它涉及到计算机图形学.图像处理.计算机视觉.计算机 ...

  8. 我也聊聊串口通信协议:数据包校验与常用校验算法

    本篇博客主要记载了我对数据校验过程以及奇偶校验的理解. 1.数据校验过程 由于数据传输距离的因素影响,计算机和受控设备间的通信数据就常常出现不可预知的错误.为了防止这些错误所带来的影响,一般在通信时采 ...

  9. Atitit. 数据约束 校验 原理理论与 架构设计 理念模式java php c#.net js javascript mysql oracle...

    Atitit. 数据约束 校验 原理理论与 架构设计 理念模式java php c#.net js javascript mysql oracle 1. 主键1 2. uniq  index2 3.  ...

最新文章

  1. MIT的这个AI,专治抗生素滥用,二次抗生素直降67%
  2. ACM入门之【DP】
  3. windows cmd命令行查看结束进程
  4. python标准库os中用来列出_Python标准库os中的listdir()函数用来列出指定目录中
  5. 如何安装Tomcat 8.0
  6. 【第29题】有 1、2、3、4 个数字,能组成多少个互不相同且无重复数字的三位数
  7. 教程 | 使用小O地图制作文字标注地图
  8. Raspbian 教学系统安装、配置流程
  9. 微服务多网卡部署(eureka显示IP不为服务IP的地址)解决办法
  10. mysql 5.6.24 64位_CentOS 6.4 64位 安装 mysql 5.6.24
  11. 找谷歌地图上任意点的经纬度
  12. 190407 逆向-西湖论剑杯
  13. 新手如何学习C语言?
  14. Centos搬迁到openEuler详细指南
  15. ASP.NET程序设计课程设计——新闻发布系统
  16. java 微信分享朋友圈 链接显示图片_java微信公众平台分享朋友圈
  17. 习题:编写一个学生和教师数据输入和显示程序,学生数据有编号、姓名、班级和成绩,教师数据有编号、姓名、职称和部门。
  18. 求稳!法拉第未来宣布将缩减建厂规模和产能
  19. Mozilla Firefox(火狐浏览器) V1.5.0.12 RC2 简体中文版
  20. Minecraft的世界生成过程(一)生成地形之前

热门文章

  1. 关于“已知有两孩子,第一个孩子为女孩,求第二个孩子为女孩的概率”的个人见解
  2. Taro:微信小程序通过获取手机号实现一键登录
  3. 计算机EI会议论文,和EI期刊论文有什么区别? - 易智编译EaseEditing
  4. 使用JDK自带工具keytool生成ssl证书
  5. web期末作业设计网页 HTML5+CSS大作业——明星个人主页(15页) 创作主页
  6. 马云语录:骗子、疯子、狂人?
  7. 【解决】“XXX...XXX“不可访问,因为它具有一定的保护级别
  8. chrome android 85,终于!安卓版Chrome 85将升级到原生64位:支持Android 10及以上系统...
  9. 为什么游戏更新不了服务器维护,自走棋手游更新不了怎么办 更新失败解决方法介绍...
  10. word中新建的标题编号与上一级的标题编号没有顺承的一种解决方法