大部分的数据分析都希望原始数据是满足正态分布的定距变量。然而,显示是残酷的,在各种研究中,常常需要面对非正态分布的定距数据。为了解决数据的正态性问题,数学家们总结了很多转化方法,但是没有万能神药,都需要对症下药(根据数据的实际分布情况,选择合适的转化方法)。

下面不会介绍具体的转化方法,只是帮助大家理顺正态转化的思路,明白正态转化的逻辑,不至于将正态转化看做神秘领域,高不可攀。

正态转化四步骤

第一步:计算数据的分布状况及两个参数:偏度(Skewness)和峰度(Kurtosis)。

第二步:根据变量的分布形状和参数,决定是否做转换。

1、对称判断

看Skewness(偏差度)的取值。如果偏度为0,则是完全对称(但罕见);如果偏度为正值,则说明该变量的分布为正偏态;如果偏度为负值,则说明该变量的分布为负偏态。然而,偏度值还不能完全判断偏态的分布是否与正态分布有显著差别,所以还需要做显著性检验。如果检验结果显著,我们可能(注意是“可能”)可以通过转换来达到或接近对称。

2、峰度检验

Kurtosis(峰度)是判断曲线陡峭和平缓的指标。如果峰度为0,说明该变量分布合适(但罕见);如果峰度为正值,说明该变量的分布陡峭;反之,如果峰度为负值,说明变量的分布平缓。峰度也需要通过显著检验来判断与正态分布是否有显著差别。我们可能可以通过转换来达到或接近正态分布。

第三步:如果需要做正态转换,根据变量的分布形状,确定相应的转换公式。下面简单介绍3种常见的正态转换方法

1、如果是中度偏态

如果偏度为其标准误差的2-3倍,可以考虑取根号值来转换。

2、如果高度偏态

如果偏度为其标准误差的3倍以上,则可以取对数,其中又可分为自然对数和以10为基数的对数。

3、对于双峰或多峰数据

秩分的正态得分的转化方法,SPSS软件中常用。

第四步:再次检验转换后变量的分布形状。如果没有解决问题,或者甚至恶化,需要再从第二或第三步重新做起,然后再回到第一步的检验。直至达到比较令人满意的结果。

数据正态化注意点

1、偏度和峰度的标准误差与样本量直接有关。具体说来,偏度的标准误差约等于6除以n后的开方,而峰度的标准误差约等于24除以n后的开方,n为样本量。由此可见,样本量越大,标准误差越小。

2、数据的正态转化方法不是通用的,要根据不同的数据分布情况,选择合适的或创造合适的转化公式,转化后必须验证转化效果,最终达到转化的目的。

3、不是所有的非正态分布的数据都能够通过正态转化而转化为正态分布数据。非正态分布的数据也可以使用非参数方法进行分析。

延伸阅读:

非正态分布数据转换成正态分布

如何把非正态分布数据转换为正态分布数据?相关推荐

  1. R语言Box-Cox变换实战(Box-Cox Transformation):将非正态分布数据转换为正态分布数据、计算最佳λ、变换后构建模型

    R语言Box-Cox变换实战(Box-Cox Transformation):将非正态分布数据转换为正态分布数据.计算最佳λ.变换后构建模型 目录

  2. 把Sql数据转换为业务数据的几种方法

    ORM系统必须把数据库中的数据转换为业务数据,转换的方法大致有3种,本文就试图对它们做一些简单分析. 1.属性反射.就是通过反射,获取业务实体类的各个属性,然后再设置这些属性的值.这个方法最简单.最稳 ...

  3. arcmap shp导出cad无反应_如何使用ArcMap将Excel数据转换为shp数据

    1. 概述 对ArcMap而言,除了shapefile等数据源,还可以将包含地理位置的表格数据以 XY 坐标的形式添加到地图中,比如Excel格式的数据,如果包含有坐标数据在里面,就可以通过导入XY数 ...

  4. 数字数据转换为字符数据_为什么替代数据对数字转换至关重要

    数字数据转换为字符数据 边缘是数据的未来(Fringe is the future of data) Alternative data has been a buzzword among invest ...

  5. Python 将关系对数据转换为图数据 / 邻接矩阵

    1. 前言 在深度学习任务,例如推荐系统中,将关系转换为图表示,即邻接矩阵是常用的操作. 通常的做法是先将关系对数据转换为图数据,然后生成该图的邻接矩阵,再存储为稀疏矩阵.但这种方法不适用于大型矩阵的 ...

  6. 字节数据转换为浮点数据

    /*====================================字节数据转换为浮点数据输入数据:要转换的四字节数据在arr[]中顺序是从低(charData[0])到高(charData[ ...

  7. 24bit有符号数据转换为整形数据

    24bit数据转换为int型 即3个字节, HH MM LL 当数据是正数时,直接转换为int: 当数据是负数时,需要先把当前数取反,再+1,得到的新数据再转换为int,最后加"-" ...

  8. GAMS将har数据转换为gdx数据和Access数据过程中的异步问题

    GAMS是非常优秀的经济学建模软件,可以用来求解一般均衡和其他优化问题.GTAP作为一种大型多区域CGE模型,也可以使用GAMS来求解,但使用之前,必须将GTAP提供的har数据转换为GAMS所能使用 ...

  9. ArcGIS基础:CAD数据转换为GIS数据(符号化显示、数据转换、线转面、空间连接)

    1.[符号化显示]: CAD数据加载进来有很多列表,可以通过查看后缀名识别,包含了点[point].线[polyline].面[polygon].标注数据[Annotation]等数据,本次实验我们需 ...

最新文章

  1. 如何让Moodle中所连结的flash等媒体事先呈现在画面上?
  2. boseqc35能不能连电脑_连win7都用不了?轻量级LXLE系统,只要10分钟,旧电脑也能运行如飞!...
  3. Rancher添加主机docker命令
  4. turtle fillcolor_使Python中的turtle模块画图两只小羊
  5. 华为xs第几批升级鸿蒙,华为鸿蒙升级名单已确认!这44款机型将优先升级,花粉有福了...
  6. CVPR 2022 论文和开源项目合集
  7. NLP先验知识(一)
  8. 云计算 雾计算 边缘计算的区别
  9. yolov5的首次colab运行
  10. 也许是史上最全的前端资源大汇总
  11. lotus notes 闪退_win7系统Lotus Notes邮箱闪退的解决方法
  12. 网站如何知道浏览器的用户在使用什么语言?
  13. 温故知新-什么是软件工程
  14. 怎么开启微信蓝牙服务器,微信加群,电脑蓝牙怎么打开,教你一个最简单的方法...
  15. linux查看硬盘命令 ok,linux查看硬件信息大全
  16. linux安装包软件命令
  17. GC 日志解读与分析:千淘万漉虽辛苦,吹尽狂沙始到金
  18. 神州数码副总裁张赐安辞职
  19. 认知神经的AI之光,将在北京闪耀
  20. flyme6 yunos android,Flyme6体验版更新:摆脱YunOS!

热门文章

  1. LeetCode-813-最大平均值和的分组
  2. 浅谈珠宝品牌推广的策略和方法
  3. 面向大规模图像检索的层次语义索引
  4. 人事管理系统设计总结
  5. 如何管理好电脑中的个人资料
  6. java中xsl用法_XSL-FO 简单使用方法(java xsl-fo xml)
  7. CDN加速起什么作用呢?
  8. 2022-2028年全球及中国透气纺织品行业投资前景分析
  9. 关于windows11新装系统界面无法登录微软账号的问题
  10. WIFI天气闹钟+无线夜灯控制(一)