拓端tecdat|R语言参数检验 :需要多少样本?如何选择样本数量
原文:http://tecdat.cn/?p=3719
参数检验受制于数据属性的假设。例如,学生t检验是众所周知的参数检验,假设样本均值具有正态分布。由于中心极限定理,如果样本量足够,测试也可以应用于非正态分布的测量。在这里,我们将研究t检验有效所需的大致样本数。
将正态分布拟合到采样均值
为了研究满足学生t检验要求所需的样本数量,我们迭代各种样本量。对于每个样本大小,我们从几个分布中抽取样本。然后,计算样本的平均值,并将正态分布拟合到平均值的分布。在每次迭代中,我们记录描述正态分布与采样均值拟合程度的对数似然。当对数似然变为正时,我们将考虑采样均值接近正态分布。
记录拟合的概率
调查结果,我们可以看到一些分布似乎比其他分布更快地接近正态分布:
print(result)
## Sample_Size Beta Normal Chi Poisson Student
## 1 5 694.9139 -299.81161 -496.33474 -702.94076 -1971.203
## 2 10 823.0384 -126.68806 -297.08253 -515.18702 -3806.447
## 3 15 909.4417 -30.63266 -199.77525 -455.64737 -2119.944
## 4 20 1045.1414 46.45709 -136.21868 -375.75690 -2263.025
## 5 50 1235.7655 278.66189 84.44694 -117.56140 -3427.721
## 6 100 1397.7265 443.81523 281.68706 47.87537 -2178.871
## 7 1000 1996.2198 1019.70692 845.26837 619.25871 -3636.674
## 8 5000 2398.4267 1402.41433 1260.47873 1018.24454 -3231.983
根据正对数似然,β分布产生的正态分布均值已经为5的样本大小。正态分布,卡方分布和泊松分布在样本大小分别为20,50和100时产生正态分布均值。最后,学生分布的方式永远不会正常,因为具有一个自由度的分布具有无限的峰度(非常重的尾部),使得中心极限定理不成立。
验证对数似然标准
作为结果的验证,让我们绘制样本大小为5的直方图和平均分布变为正常的样本大小:
plot.means(norm.means)
这些结果表明对数似然准则是正态性的充分代理。但请注意,从目视检查来看,平均值的初始贝塔分布似乎不比正态分布更正常。所以这个结果可能是用一粒盐。看看学生的t分布,我们可以看出为什么它的手段不是正态分布的:
round(quantile(means$Student), 2)
## 0% 25% 50% 75% 100%
## -495.61 -0.95 0.00 0.98 3422.66
对于一些样本,平均分布在分布的两个尾部具有极端异常值。
结论
这些实验的结果表明,对于小于20的样本,绝对应该避免学生t检验。当样本量至少为100时,大多数分布似乎都满足了测试的假设。
总之,特别建议检查样本大小低于100的测量分布。由于中心极限定理不适用于具有无穷方差的分布,因此验证大样本大小的测量分布也是合理的。排除这种分配的可能性。正如我们在这里看到的,即使在5000的样本大小下,根据具有一个自由度的t分布分布的测量也不满足测试的假设。
非常感谢您阅读本文,有任何问题请在下面留言!
拓端tecdat|R语言参数检验 :需要多少样本?如何选择样本数量相关推荐
- 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...
- 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
- 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
- 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...
- 拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
- 拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
- 拓端tecdat|bilibili视频流量数据潜望镜
最近我们被客户要求撰写关于bilibili视频流量的研究报告,包括一些图形和统计输出. 最新研究表明,中国有超过7亿人在观看在线视频内容.Bilibili,被称为哔哩哔哩或简称为B站,是中国大陆第二个 ...
- R语言参数检验多重比较
本文首发于公众号:医学和生信笔记,完美观看体验请至公众号查看本文. 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化. 对于多个样本均数的多重比较,比较常用的是LSD-t,SNK, ...
- 为什么R语言是学习数据分析的第一选择
数据时代已经到来,但数据分析.数据挖掘人才却十分短缺,据全球顶尖管理咨询公司麦肯锡(McKinsey)一份详细分析报告显示: >>>> 预计到 2018 年,大数据或者数据工作 ...
- R语言计算并合并各物种的OTU数量
使用R语言快速根据不同物种分类对OTU进行合并计算,今天借助R语言中dplyr包及aggregate函数的肩膀,重新编写了一个简易的一键式函数,可以快速帮助大家完成不同分类,单分类,多分类的OT ...
最新文章
- 技巧 | OpenCV中如何绘制与填充多边形
- Swift实战-豆瓣电台(六)视图跳转,传参及回跳
- 2017 php7 使用率,让PHP7达到最高性能的几个Tips
- 这次牛逼了,面试字节被问LinkedList原理了!手足无措啊
- 玩转oracle 11g(36):rman备份-控制文件丢失恢复
- 2005年1月-2008年10月雅思A类(学术类)作文 TASK 2 考题汇总(10月4日更新)
- Atitit.一些公司的开源项目 重大知名开源项目attilax总结
- 《快学Scala》第6章 对象 练习
- 基于分布式光纤侦听技术的岛礁近岸防卫监测
- 各大云服务厂商 轻量应用服务器 性能评测对比,阿里云、腾讯云、华为云、Ucloud
- Windows 7下旋转屏幕的快捷键
- boostrap中lg,md,sm,xs分别对应的像素宽度
- 树莓派开机启动chromium浏览器
- 通信领域的宽带信号和窄带信号到底是什么??
- 路由器无线中继WDS\WISP\CLINENT+AP优劣
- Codeforces1575 D. Divisible by Twenty-Five(dp)
- Python实现FP树
- pyQt5 学习笔记(2)基本窗口绘画
- 华为Nova7Pro和华为mate30 哪个好
- Java - JavaFx之fxml文件的编写及基本使用方式
热门文章
- 在win7命令行使用ssh通过秘钥登录linux
- ASP截取字符:instr,instrrev,left,right,mid
- 《Java程序员,上班那点事儿》征文活动获奖名单
- Python多进程与多线程编程
- 【车道线检测与寻迹】2月13日 CV导论+数字图像处理与opencv实践+canny边缘检测
- Pytorch模型构造方法
- 第四季-专题2-U-Boot新手入门
- 将ibatis.net中定义的statement转换为实际的sql语句
- webpack, react项目中利用外部JS库提升效率
- 灵敏度和稳定性能兼具 新气体传感器技术适用于工业应用