【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介
总体比例与样本比例
假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人“可能偏爱曼帝公司的糖球”。
结果发现,在40个人中有32个人偏爱他们的口香糖球,其余8个人则偏爱竞争对手的口香糖球。
首席执行官感兴趣的是,是否人人都偏爱曼帝糖果的产品。那么可以将偏爱曼帝糖果的每一个人作为一个“成功”事件。那么我们如何利用样本数据预测总体的“成功”比例?
预测总体比例
如果我们用 X 表示总体的成功事件数量,则 X 符合二项分布,参数为n和p。n为总体中的人数,p 为成功事件的比例。
就像总体均值的最接近估计是样本均值一样,总体成功比例的最接近猜测肯定是样本成功比例。即,如果我们求出样本中偏爱曼帝糖果的人的比例,就能十分近似地估计出总体人群中偏爱曼帝糖果的人的比例。
用偏爱曼帝糖果的总人数除以样本总人数,就能得出样本的成功比例:如果用psp_sps代表样本的成功比例,则可以下式估计总体的成功比例:
其中,
ps=成功数目样本数目p_s = \frac{成功数目}{样本数目} ps=样本数目成功数目
也就是说,我们将样本成功比例作为总体成功比例的点估计量,在曼帝糖果的最新抽样中,40 个人中有 32 个人偏爱曼帝糖果产品,因此PsP_sPs=0.8。于是,总体成功比例的点估计量也是 0.8。
概率和比例互有关系
其实,概率和比例有很密切的关系。
假设你有一个总体,需要求其成功比例。为此,你可用成功的数目除以总体大小。
现在,假设你想计算从总体中随机选取一个成功事件的概率。为此,你可用总体的成功数目除以总体大小。可以看出,你计算成功概率的方法和计算成功比例的方法完全一样。
我们用字母 p 代表总体的成功概率,我们也能方便地用 p 代表比例一二者数值相同。
p=probability(概率)=proportion(比例)p = probability(概率) = proportion(比例) p=probability(概率)=proportion(比例)
例题:
根据总体预测样本比例
假设一个情境:电影院出售混合型盒装糖球。每一盒装有100粒糖球;糖球总体中有25%是红色的。求一大盒特定糖球中有40颗或40颗以上红色糖球的概率,也就是求红色糖球占40%的概率。
这次我们已知总体参数,需要为某一盒特定糖球计算概率,也就是求样本比例的概率。为了求出样本比例的概率分布,下面是具体做法:
- 查看与我们的特定样本大小相同的所有样本。
如果我们有一个大小为 n 的样本,就需要考虑所有大小为 n 的可能样本。在本例中,盒子里的糖球数量为 100,因此 n 为 100。
- 观察所有样本比例形成的分布,然后求出比例的期望和方差。
每一个样本都有自己的情况,因此每个包装盒里的红色糖球的比例都有可能发生变化。
- 得出上述比例的分布后,利用该分布求出概率。
得知一个样本中的“成功比例”的分布后,就能够利用这个分布求出一个随机样本的比例概率一这里的随机样本是一大盒糖球。
具体做法:先看糖球总体。已知总体中的红色糖球的比例,用p表示,即p=0.25。
每一大盒糖球其实就是从糖盒总体中取出的一个样本。每一大盒装有100颗糖球,因此样本大小为100,让我们用n表示这个大小。
如果用随机变量X代表样本中的红色糖球的数目,则X~B(n,p),其中n=100,p=0.25。样本中的红色糖球的比例取决于X — 样本中的红色糖球的数目,即比例本身是一个随机变量,可以将此记为PsP_sPs,且Ps=X/nP_s = X/nPs=X/n。
可以取出的大小为 n 的可能样本为数众多。每一个可能样本会包含 n 颗糖球,每一盒样本中的红色糖球的数量会符合相同的分布 — 对于每一个样本,红色糖球的数量符合B(n,p),成功比例则为X/n。
利用所有可能的样本,我们能得出所有样本比例的分布,该分布称作“比例的抽样分布”,或者称作“PsP_sPs的分布”。
利用比例的抽样分布,能够求出某一个随机选择的、大小为 n 的样本的“成功比例”的概率。
也就是说,我们能够利用比例的抽样分布求出“某一大盒糖球中的红色糖球比例至少为 40%”的概率。不过,在此之前,我们需要知道上述分布的期望和方差。
PsP_sPs的期望
出于直觉,我们会期望样本中的红色糖球的比例与总体中的红色糖球的比例保持一致。如果糖球总体中包含25%的红色糖球,那么,可以期望样本中也包含25%的红色糖球。
那么具体计算呢?我们想求E(Ps)E(P_s)E(Ps),其中Ps=X/nP_s=X/nPs=X/n。也就是说,我们想求出所期望的样本比例数值,这里的样本比例等于红色糖球的数量除以样本糖球的总数量,即:
E(Ps)=E(Xn)=E(X)nE(P_s) = E(\frac{X}{n}) = \frac{E(X)}{n} E(Ps)=E(nX)=nE(X)
上式中的X为样本中红色糖球的数目,如果我们把红色糖球数目视为“成功数目”,则X~B(n,p)。X为二项分布,期望为np。则:
E(Ps)=E(Xn)=E(X)n=npn=pE(P_s) = E(\frac{X}{n}) = \frac{E(X)}{n} = \frac{np}{n} = p E(Ps)=E(nX)=nE(X)=nnp=p
这个结果正好符合直觉。我们可以期望样本的成功比例与总体的成功比例相一致。
PsP_sPs的方差
与求期望的方法相似,
Var(Ps)=Var(Xn)=Var(X)n2Var(P_s) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2} Var(Ps)=Var(nX)=n2Var(X)
提示:Var(ax)=a2var(x)Var(ax) = a^2var(x)Var(ax)=a2var(x)
由于X为二项分布,方差为npq,则:
Var(Ps)=Var(Xn)=Var(X)n2=npqn2=pqnVar(P_s) = Var(\frac{X}{n}) = \frac{Var(X)}{n^2} = \frac{npq}{n^2} = \frac{pq}{n} Var(Ps)=Var(nX)=n2Var(X)=n2npq=npq
取方差的平方根,可得PsP_sPs的标准差,它指出样本比例与p的可能差距,有时候我们将它称为“比例标准误差”,因为它能指出样本比例的可能误差。
比例标准误差=pqn比例标准误差 = \sqrt{\frac{pq}{n}} 比例标准误差=npq
n越大,比例标准误差越小。也就是说,样本中包含的对象越多,用样本比例作为p的估计量就越可靠。(我理解为样本中含红色糖球的概率为0.25的可能性越大,越接近0.25,n太小了可能就有意外情况多一些,比如2颗中有1颗红色糖球)
求解PsP_sPs的分布
我们求出了PsP_sPs的期望和方差,为了求出想要的概率,还需要知道它的分布,而PsP_sPs的分布又取决于样本的大小。下面是一张PsP_sPs的分布图,其中n很大。
PsP_sPs符合正态分布
当n很大时,PsP_sPs的分布接近正态分布。所谓“很大”是指大于30。n越大,PsP_sPs的分布越接近正态分布。也就是说,当n很大的时候:
Ps∼N(p,pqn)P_s \sim N(p,\frac{pq}{n}) Ps∼N(p,npq)
之后我们就可以用正态分布的求法求出“某一大盒糖盒中的红色糖球比例至少为40%”的概率了。
PsP_sPs需要进行连续性修正
每个样本的“成功数目”都是离散的。由于使用“成功数目”计算比例,因此在用正态分布计算概率时,要进行连续性修正。
我们前面讲过,如果用 X 表示样本中的成功数目,则Ps=X/nP_s=X/nPs=X/n; X 的正态连续性修正为±(1/2)。
如果我们用以上数值替代公式Ps=X/nP_s=X/nPs=X/n中的X,那么PsP_sPs的连续性修正为:
连续性修正=±(1/2)n=±12n连续性修正 = \frac{\pm (1/2)}{n} = \frac{\pm 1}{2n} 连续性修正=n±(1/2)=2n±1
即,如果用正态分布近似计算P的概率,一定要用±1/2n进行连续性修正;连续性修正的确切数值取决于数值。(我的理解:实际上是这样Ps=X±(1/2)n=Xn±(1/2)nP_s = \frac{X \pm (1/2)}{n} = \frac{X}{n} \pm \frac{(1/2)}{n}Ps=nX±(1/2)=nX±n(1/2),加号或者减号根据实际情况)
小知识:当n很大,连续性修正变得很小,对整个概率带来的变化很小,有时候可以忽略。
让我们看一道例题,看概念感觉迷迷糊糊的。
我们再看一遍总结:
【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介相关推荐
- PMP读书笔记(第11章)
大家好,我是烤鸭: 今天做一个PMP的读书笔记. 第十一章 项目风险管理 项目风险管理 项目风险管理的核心概念 项目风险管理的趋势和新兴实践 裁剪考虑因素 在敏捷或适应型环境中需要考虑的因素 ...
- 电磁兼容工程(Electromagnetic compatibility engineering Herry Ott )读书笔记-- 章11 数字电路电源分布
目录 11 数字电路电源分布 11.1 电源去耦 11.2 电源管脚的瞬态电流 11.2.1 瞬态负载电流 11.2.2 动态内部电流 11.2.3 瞬态电流的傅里叶频谱 11.2.4 总共的瞬态 ...
- 《用户体验要素》读书笔记 2017.11.05
本次读书:<用户体验要素:以用户为中心的产品设计(原书第2版)> 原版书名:<The Elements of User Experience: User-Centered Desig ...
- 《Effective C#》读书笔记——条目11:理解短小方法的优势C#语言习惯
在应用程序开发过程中,开发者都力求写出更加高效的代码.但是当你想手工为C#编译器优化代码时,你的种种优化可能反倒会阻碍JIT进行更加高效的优化.因此,我们最好尽可能的写出最清晰的代码,将优化工作交给J ...
- 读书笔记 Effective C++: 02 构造析构赋值运算
条款05:了解C++默认编写并调用的哪些函数 编译器会为class创建: 1. default构造函数(前提是:没有定义任何构造函数): 如果已经声明了一个构造函数,编译器就不会再创建default构 ...
- 《从0到1》读书笔记第11章“顾客不会自动上门”: 当幸福来敲门(完)
摘要: 即使产品没有差异化,高超的销售和推销自身也可以形成垄断,反之则不行.不管产品如何优良 -即使它们可以轻松融入人们已有的习惯中,使使用过的人一见倾心,也必须要有完善的推广计划作为后盾. 相信大部 ...
- 人月神话读书笔记(11)----未雨绸缪
未雨绸缪 图为纽约湾的Tacoma桥由于空气动力学上的错误设计而坍塌的新闻照片.1940年11月7日中午时分,建成仅仅数月的Tacoma桥坍塌,这是桥梁工程史上著名的悲剧.在做项目设计和规划时,一定要 ...
- WPF程序设计读书笔记(1-1)
第1章 应用程序和窗口 为 WPF开发应用程序,一般来说,一开始需要花一点点时间创建Application对象与Window对象.下面是一个很简单的WPF程序: //************** ...
- 机器学习实战---读书笔记: 第11章 使用Apriori算法进行关联分析---2---从频繁项集中挖掘关联规则
#!/usr/bin/env python # encoding: utf-8''' <<机器学习实战>> 读书笔记 第11章 使用Apriori算法进行关联分析---从频繁项 ...
- Effective C++读书笔记 摘自 pandawuwyj的专栏
Effective C++读书笔记(0) Start 声明式(Declaration):告诉编译器某个东西的名称和类型,但略去细节. std::size_t numDigits(i ...
最新文章
- 为什么java退出全屏_Java全屏模式与退出全屏:
- 中国文学发展史思维导图
- Chrome 如何让光标快速定位到地址栏-进行搜索
- linux时间和win10差8小时,[转载]Ubuntu16.04与Win10时间差8个小时问题解决方案
- mysql sleep进程 java_请教java更新mysql,更新进程sleep
- 推荐8款Windows装机必备下载神器【建议收藏】
- Vue.use 写多个_支付宝为16个行业写的文案,据说价值30万
- php 对接 hotmail邮箱,php 模拟GMAIL,HOTMAIL(MSN),YAHOO,163,126邮箱登录的详细介绍
- ipad键盘符号少怎么办?
- WordPress初学者入门教程-“经典”所见即所得编辑器
- SqlServer的LDF文件丢失, 如何仅用MDF文件恢复数据库呢?(已解决)
- Java学习笔记系列-入门篇-计算机基础
- windows如何设置全角半角切换
- Win7宝典 / Windows7宝典
- WordPress网站加装SSL证书后无法正常加载图片问题
- Redis:缩容、扩容、渐进式rehash
- python3程序设计基础答案刘德山_《PYTHON3程序设计/唐永华》唐永华 刘德山 李玲著【摘要 书评 在线阅读】-苏宁易购图书...
- matter的通用设备类型
- IBM 国际商业机器公司
- Python 使用tcp协议模拟 在线对话聊天(即时通讯)
热门文章
- java数独流程图_九宫格数独游戏C语言解法
- PCL 库的安装与应用
- 鸿图之下服务器维护10月25,更新公告丨《鸿图之下》12月30日维护更新预告
- LTE 下行SINR测量
- 主题:【元宵赏灯】蛇年杭州元宵赏灯攻略(上城区、滨江区、下城区)
- android 无线音乐播放器,玩转Openwrt(二) — 配合Android手机打造无线音乐播放器...
- 2021 年度个税汇算清缴申报流程来了
- 长安大学c语言指针实验报告,长安大学FPGA设计与运用实验报告.doc
- 人体检测技术之PIR
- QT-日期倒计时功能的小坑