↑ 点击上方 “可乐的数据分析之路” 关注 + 星标 ~

大概率每天早8点25更新  

哈喽,大家好,我是可乐

今天这篇文章接2个月以前的那篇文章 离散型随机变量的概率分布,继续来聊聊连续型随机变量的概率分布,以及用Python如何实现。

并非所有的数据都是连续的,根据数据类型的不同,有不同的求概率的方法,对于离散型随机变量的概率分布,我们关心的是取某一个特定数值下的概率,而对于连续型随机变量的概率分布,我们关心的是取某一个特定范围内的概率

首先要提到的一个概念就是:

概率密度函数

概率密度函数用来描述连续型随机变量的概率分布,用函数f(x)表示连续型随机变量,将f(x)就称为概率密度函数,概率密度并非概率,只是一种表示概率的方法,大家不要混淆,其曲线下面的面积表示概率。

概率密度函数下方的总面积为1,因为面积代表概率,而概率是必须为1。

下面是三种典型的连续型随机变量的概率分布

1. 正态分布

随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,就是正态分布,也叫做高斯分布,通常记做:

标准正态分布

正态分布是一个钟形曲线,曲线对称,中央部分的概率密度最大,越往两边,概率密度越小。μ决定了曲线的中央位置,σ决定了曲线的分散性,σ越大,曲线越平缓,σ越小,曲线越陡峭。

如何求正态分布的概率?

正态分布的概率密度函数满足:

连续型随机变量的理想模型就是正态分布,求正态分布的概率同样是求概率密度曲线下的面积,曲线的面积如何求?没关系,已经有前人栽树了,总结好了一整套的概率对应表,我们就直接乘凉就好了,其实求正态分布下的概率,是高中数学的知识点,但是如今我们完全可以借助Excel、Python这些工具也是可以直接计算出来,就没必要学习怎么去手算了。

标准正态分布的意义是,任何一个正态分布都可以通过线性变换转换为标准正态分布。

正态分布

很多实际问题都是符合正态分布的,如身高、体重等。正态分布在质量管理中也应用的非常广泛,“3σ原则”就是在正态分布的原理上建立的。
3σ原则是:

  • 数值分布在(μ—σ,μ+σ)中的概率为0.6826

  • 数值分布在(μ—2σ,μ+2σ)中的概率为0.9544

  • 数值分布在(μ—3σ,μ+3σ)中的概率为0.9974
    因此可以认为,Y 的取值几乎全部集中在(μ—3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%,这是一个小概率事件,通常在一次试验中是不会发生的,一旦发生就可以认为质量出现了异常。

可以用Python里的matplotlib来画一下正态分布

scipy.stats 是 scipy 专门用于统计的函数库,所有的统计函数都位于子包 scipy.stats 中

fig,ax = plt.subplots(1,1)loc = 1
scale = 2.0
#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = norm.stats(loc,scale,moments='mvsk')
#print mean,var,skew,kurt
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X<x)=0.01时的x值。
x = np.linspace(norm.ppf(0.01,loc,scale),norm.ppf(0.99,loc,scale),100)
ax.plot(x, norm.pdf(x,loc,scale),'b-',label = 'norm')plt.title(u'正态分布概率密度函数')
plt.show()

结果:

2. 均匀分布

均匀分布,也叫矩形分布,是概率密度函数在结果区间内为固定数值的分布

均匀分布

它的概率密度函数为:

均匀分布在自然情况下极为罕见,同样来画一下均匀分布

# 均匀分布fig,ax = plt.subplots(1,1)loc = 1
scale = 1#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = uniform.stats(loc,scale,moments='mvsk')
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X<x)=0.01时的x值。
x = np.linspace(uniform.ppf(0.01,loc,scale),uniform.ppf(0.99,loc,scale),100)
ax.plot(x, uniform.pdf(x,loc,scale),'b-',label = 'uniform')plt.title(u'均匀分布概率密度函数')
plt.show()

结果:

3. 指数分布

指数分布是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。如旅客进机场的时间间隔,还有许多电子产品的寿命分布一般服从指数分布。

指数分布

其概率密度函数为:

指数分布具有无记忆的关键性质。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。

用Python画指数分布的概率密度函数

fig,ax = plt.subplots(1,1)lambdaUse = 2
loc = 0
scale = 1.0/lambdaUse#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = expon.stats(loc,scale,moments='mvsk')
#ppf:累积分布函数的反函数。q=0.01时,ppf就是p(X<x)=0.01时的x值。
x = np.linspace(expon.ppf(0.01,loc,scale),expon.ppf(0.99,loc,scale),100)
ax.plot(x, expon.pdf(x,loc,scale),'b-',label = 'expon')plt.title(u'指数分布概率密度函数')
plt.show()

结果:


今天的内容就先到这里了

白话统计学 这个系列看的人非常少,但我还是想写一下,记录自己的学习过程。

——猜你喜欢——

终于有人讲清楚数据分析全流程了!

2020-11-04

数据分析都会用到哪些工具?

2020-11-02

如何用算法改变生活 | 算法之美

2020-10-28

终于搞清楚正态分布、指数分布到底是啥了!相关推荐

  1. excel查标准正态分布_终于搞清楚正态分布、指数分布到底是个啥了

    前一篇文章写的是离散型随机变量的概率分布,今天我们来聊聊连续型随机变量的概率分布. 并非所有的数据都是连续的,根据数据类型的不同,有不同的求概率的方法,对于离散型随机变量的概率分布,我们关心的是取某一 ...

  2. python 正态分布_终于搞清楚正态分布、指数分布到底是个啥了

    前一篇文章写的是离散型随机变量的概率分布,今天我们来聊聊连续型随机变量的概率分布. 并非所有的数据都是连续的,根据数据类型的不同,有不同的求概率的方法,对于离散型随机变量的概率分布,我们关心的是取某一 ...

  3. python画成绩正态分布图_终于搞清楚正态分布、指数分布到底是啥了!

    来源:可乐的数据分析之路作者:可乐 今天这篇文章接2个月以前的那篇文章 离散型随机变量的概率分布,继续来聊聊连续型随机变量的概率分布,以及用Python如何实现. 并非所有的数据都是连续的,根据数据类 ...

  4. 我终于搞清楚了和String有关的那点事儿

    转载自   我终于搞清楚了和String有关的那点事儿 String,是Java中除了基本数据类型以外,最为重要的一个类型了.很多人会认为他比较简单.但是和String有关的面试题有很多,下面我随便找 ...

  5. 终于搞定终于搞定linux下阅读pdg(转)

    终于搞定终于搞定linux下阅读pdg(转)[@more@]转贴: 许多朋友都下载过PDG格式的文件,也就是超星图书馆的数字图书,这些图书在Windows下可以使用超星图书浏览器方便的阅读,但在Lin ...

  6. php m层,M层?G层?LG层?终于搞清楚这些电梯楼层数了!

    崛地而起的高楼大厦.无处不在的电梯,已然成为城市的重要符号.不知道大家在乘坐电梯的时候有没有遇到P层.G层.M层这样的楼层按钮呢? 习惯了简单数字指示楼层的我们,被这种字母指示来的措不及防.那么这些字 ...

  7. smb服务器权限修改,终于搞定了samba的文件夹访问权限设置

    昨天下午w老师找我,说现在实验室的文件服务器(内网IP为xx.xx.xx.16,所以简称16)上面有一个文件夹需要设置访问权限,只有指定项目组的人能访问.于是乎昨天晚上在许大牛的协助下设置了半天,查了 ...

  8. 终于搞明白gluPerspective和gluLookAt的关系了

    2019独角兽企业重金招聘Python工程师标准>>> 终于搞明白gluPerspective和gluLookAt的关系了 函数原型 gluLookAt(GLdoble eyex,G ...

  9. 第二天,终于搞定 —— 2014.10.28

    npm install 报错 bower ENOGIT git is not installed or not in the PATH 的问题终于搞定. 在angular-phonecat文件夹打开n ...

最新文章

  1. js 将二进制流html导出excel,js 实现纯前端将数据导出excel
  2. SAP制造业成本核算流程
  3. spring boot 集合mysql_Spring boot整合mysql和druid
  4. [转]retina屏下支持0.5px边框的情况
  5. URL转码escape() encodeURI() encodeURIComponent()
  6. 一张图了解互联网产品盈利模式
  7. 关于在用Swift开发iOS时如何隐藏NavigationBar和TabBar
  8. [圣诞大礼][android控]平板电脑HD精品游戏软件合集
  9. 2022年某市新型智慧城市一网统管顶层设计方案(WORD)
  10. 50以内的质数顺口溜_最新50以内质数顺口溜大全
  11. linux perl环境搭建,Perl 环境安装
  12. 即将来临的Rails 4.0将放弃Ruby 1.8支持,改进后台任务、缓存等多项内容
  13. 【UEFI实战】UEFI中使用汇编代码
  14. 编程序,输出1/3-3/5+5/7-7/9…+19/21的结果
  15. B站JavaScript从入门到精通智能社Blue石川老师视频部分代码_幻灯片
  16. django实现qq一键登录(qq互联)
  17. Elasticsearch:Ingest pipeline 介绍
  18. 下拉菜单和文本框结合
  19. 2020-4-22 深度学习笔记20 - 深度生成模型 5 (有向生成网络--sigmoid信念网络/可微生成器网络/变分自编码器VAE/生产对抗网络GAN/生成矩匹配网络)
  20. linux系统连接不上wifi

热门文章

  1. 现代机器人(Modern Robotics):力学,规划,控制读书笔记
  2. 从文档导入单号进行物流查询
  3. 嵌入式这个青春饭我吃了整整几十年
  4. 中国人造的英文字... 还真有意思
  5. 抖音超火的3d照片墙,h5+css3+js实现
  6. FR8012HAQ利用ADC实现检测电池电压检测的解决方案
  7. 荧光标记肽(Arg)9, FAM-labeled
  8. 挑选同城外卖系统时,配送功能是关键,系统该拥有哪些配送模式?
  9. Linux命令行中单引号和双引号的区别
  10. Java几种注解的不同作用