原标题:医学数据如果存在离群值应如何处理?spss箱式图解决——【杏花开医学统计】

离群值(outlier),指数据中与其他数值相比差异较大的数值。离群值具有极端或变异的特点,从直观上看似乎会与样本总体表现的有点格格不入,但是在进行医学统计时,在离群值产生的原因不明之前,不应简单决定其取舍,特别是当测量数据较少时,离群值的取舍对分析结果会产生很大影响,必须谨慎对待。

下面,我们来谈谈用spss箱式图处理医学数据中离群值的详细方法。

下方视频中有完整的理论讲解、spss中的操作步骤、分析结果的解读。看完就会了哦!

一、基本原理

箱式图,也称箱线图,其形状像箱子,用于表示数据的分散情况。箱式图可以展示出一组数据的最大值、最小值、中位数及上下四分位数。

箱式图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中,箱式图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱式图中间的粗线段表示数据的中位数。

二、判断方法

箱式图中在最上方和最下方的星号和圆圈分别表示样本数据中的异常值,即离群值。用SPSS软件描绘数据的箱式图,如果个体值距箱式图(box plot)底线(第一四分位线)或顶线(第三四分位线)的距离过大,一般为四分位数间距(箱体高度)的1.5倍至3倍时被视为离群点;而个体值距箱体底线或顶线的距离超过3倍的箱体高度时被视为离群值。

三、案例解读

(1)在SPSS中的具体操作

①依次点击“分析——描述统计——探索”。

②出现“探索”窗口,将需要绘制箱式图的变量拖入到“因变量列表”框中,勾选“图”。

③点击“绘图”,选择“不分组”“茎叶图”,点击“继续”、“确定”。

④得到箱式图。

(2)结果解读

由以上箱式图可知,心率图中下方出现了圆圈,表示存在极端值。圆圈显示的序号为17,表示编号为17的样本是离群值,对应查找原样本数据,数字为“53次/分”,即心率53次/分为离群值。

四、小结

本期,我们采用箱式图法进行了样本离群值的判断,在医学研究中,若判断出数据存在离群值,可以分两种情况来处理。

①如果确认数据确实存在逻辑错误,而又无法纠正,可选择直接删除该数据。

②若数据并无明显的逻辑错误,可将该数据剔除前后各做一次分析,若结果不矛盾,则不剔除;若结果矛盾,且需要剔除,则需要给予充分合理的解释,确定该数据偏离所用的方法及该数据产生的原因等。

单变量离群值的识别方法主要还包括有直方图法、拉依达准则、Q检验法,多变量的离群值识别则有马氏距离法。后续我们将陆续更新更多识别样本离群值的方法,敬请关注!

参考文献:

1、马斌荣,李康.《医学统计学 第6版》.人民卫生出版社.

版权说明:本文系杏花开医学统计原创文章

更多医学统计文章及视频案例教程请关注【杏花开医学统计】微信公众号:xhk345返回搜狐,查看更多

责任编辑:

离群值是什么意思_医学数据如果存在离群值应如何处理?spss箱式图解决——【杏花开医学统计】...相关推荐

  1. 如何给图片赋值_医学数据的变量类型及在SPSS中的赋值方法(医学统计前的重要步骤)——【杏花开医学统计】...

    杏花开生物医药统计 一号在手,统计无忧! 关 注 医学数据的变量类型 及在SPSS中的赋值方法 关键词:医学数据,变量类型,赋值,spss 下方为视频版和音频版,含软件操作步骤 导  读 不同的医学数 ...

  2. 怎么用spss做冗余分析_用SPSS进行医学统计信度分析——【杏花开医学统计】

    杏花开生物医药统计 一号在手,统计无忧! 关 注 用SPSS进行医学统计信度分析 关键词:SPSS.信度分析 导 读 上期,我们介绍了量表的基本形式及其研制步骤. 点击观看:<医学研究中量表研制 ...

  3. 多选题spss相关分析_【医学问卷分析】使用SPSS多重响应对医学问卷多选题进行统计分析——【杏花开医学统计】...

    杏花开生物医药统计 一号在手,统计无忧! 关 注 [医学问卷分析] 使用SPSS多重响应对 医学问卷多选题进行统计分析 关键词:SPSS.问卷分析 导  读 前几期,我们介绍了量表的制作及信效度分析的 ...

  4. spss主成分综合得分_【SPSS因子分析】在SPSS中对医学多个数值变量进行因子分析 —【杏花开医学统计】...

    杏花开生物医药统计 一号在手,统计无忧! 关 注 在SPSS中对医学多个数值 变量进行因子分析 关键词:SPSS.因子分析 导  读 因子分析(factor analysis),指通过多个可观测的指标 ...

  5. 数据可视化 信息可视化_可视化数据以帮助清理数据

    数据可视化 信息可视化 The role of a data scientists involves retrieving hidden relationships between massive a ...

  6. 海量数据寻找最频繁的数据_在数据中寻找什么

    海量数据寻找最频繁的数据 Some activities are instinctive. A baby doesn't need to be taught how to suckle. Most p ...

  7. 第一次马拉松_成为数据科学家是一场马拉松而不是短跑

    第一次马拉松 Since Data Science became the "Sexiest Job of the 21st Century" the interest in the ...

  8. 机器学习数据预处理之离群值/异常值:图像对比法

    机器学习数据预处理之离群值/异常值:图像对比法 garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的估计. 简单来说,异常值是一 ...

  9. 机器学习数据预处理之离群值/异常值:箱图法(boxplot method)

    机器学习数据预处理之离群值/异常值:箱图法(boxplot method) garbage in,garbage out. 异常值是分析师和数据科学家常用的术语,因为它需要密切注意,否则可能导致错误的 ...

  10. 机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD)

    机器学习数据预处理之离群值/异常值:MAD法(绝对值差中位数法)+绝对中位差(Median Absolute Deviation,MAD) garbage in,garbage out. 异常值是分析 ...

最新文章

  1. 计算机网络-自顶向下方法(7th) 第四章 Review Questions 英文题目
  2. awstats 网站访问统计工具安装
  3. 最简单的文件加密工具(完全免费)
  4. python按综合、销量排序抓取100页的淘宝商品列表信息
  5. 西门子G120变频器常用参数(自己总结的)
  6. 蓝桥杯 基础练习 特殊回文数 JAVA
  7. 音响无声或声音不正常的原因有哪些?
  8. 数据从阿里云迁移到腾讯云
  9. LUK-Triumphal arch
  10. 基于Three.js和MindAR实现的网页端人脸识别功能和仿抖音猫脸特效换脸的各种面罩实现(含源码)
  11. java课程设计atm机_java课程设计报告-自动取款机模拟程序.doc
  12. 北京尚学堂退课退课,口碑还不错
  13. 教师资格证考试备考资料大合集(历年真题+常用考点+模拟试题+面试),共460份,987M,附件中为网盘链接
  14. 2019年最新《Web 前端开发》等级考试模拟题~以国家 “1+X” 职业技能证书为标准,厚溥推出 Web 前端开发人才培养方案...
  15. Linux系统中内核态、用户态和零拷贝技术解析
  16. 一条通往服务器所有端口的隧道
  17. 运维老兵对运维中常见技术类问题剖析
  18. MIPCMS模板开发之全局标签
  19. java spit 点_java split()使用方法解析
  20. 『默哀』你的梦或许因为这个新闻而碎了【用你的程序语言 抛出一行异常】

热门文章

  1. 云计算给IT产业结构带来的影响
  2. 单机塔防游戏推荐_十大塔防单机手游2019 简单好玩的单机塔防游戏推荐
  3. 计算机x线成像检查,计算机X线成像(X光机成像)简述
  4. 利用Matlab App Designer简单设计程序
  5. 八个有价值的消费者心理
  6. python 调用淘宝客api
  7. php中的单引号和双引号
  8. 为何我的孩子不沉迷网络游戏
  9. 常州一中训练试题泛做 Part 1
  10. OAuth2.0+SpringSecurity+Jwt实现系统的登录认证,用户授权