泊松分布知识总结及例子

泊松分布经常出现在IT类技术面试中,虽然工作中我还没遇到需要用泊松分布解决的问题,但我想深入理解泊松分布对于服务器处理访问请求,以及对各种小概率事件的估计预测都有重要作用,所以花时间整理了下资料,以备忘及分享讨论。

泊松分布

Poisson分布(法语:loi de Poisson,英语:Poisson distribution),译名有泊松分布普阿松分布卜瓦松分布布瓦松分布布阿松分布波以松分布卜氏分配等,又称泊松小数法则(Poisson law of small numbers),是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数,宇宙中单位体积内星球的个数 ,耕地上单位面积内杂草的数目等 。

泊松分布的概率质量函数为:

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

泊松分布的由来

在二项分布的伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。

证明如下。首先,回顾e的定义:

二项分布的定义:

如果令趋于无穷时的极限:

所以,实验结果满足泊松分布的实验即为泊松过程。泊松过程把离散的伯努利过程变得连续化了:原来是抛n次硬币,现在变成了无穷多次抛硬币;原来某次抛硬币得到正面的概率是p,而现在p无限接近于0(p=lambda/n),即:非常难抛出正面朝上的硬币;但是n次实验中硬币朝上的次数的期望不变,即lambda恒定。在泊松过程中,我们把抛出硬币正面这样的事件叫做到达(Arrival)。把单位时间内到达的数量,叫做到达率(Arrival Rate)。
故,泊松过程需要满足以下三个性质:
1. 在任意单位时间长度内,到达率是稳定的。对应于无穷次抛硬币的例子,我们相当于把一个单位时间分割成了无穷次抛硬币的实验,每次实验产生正面的概率都是一样的(为lambda/n),而在这无穷个抛硬币实验之后(即一个单位时间之后)我们期望能抛出lambda个正面的硬币。这个性质类比于在有限次抛硬币(二次分布)的例子中保证了每次掷出硬币为正面的概率都为p。 
2. 未来的实验结果与过去的实验结果无关。对应于无穷次抛硬币的例子,之前不管抛出了多少个正面和反面的硬币,都不会影响之后硬币出现的结果。
3. 在极小的一段时间内,有1次到达的概率非常小,没有到达的概率非常大。对应于无穷次抛硬币的例子,我们发现硬币朝上的概率p=lambda/n趋向于0。

举个例子

让我们先通过一个例子,了解什么是"泊松分布"。

已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?

假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:

(1)顾客购买水果罐头是小概率事件。

(2)购买水果罐头的顾客是独立的,不会互相影响。

(3)顾客购买水果罐头的概率是稳定的。

在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。

泊松分布的公式如下:

各个参数的含义:

  P:每周销售k个罐头的概率。

  X:水果罐头的销售变量。

  k:X的取值(0,1,2,3...)。

  λ:每周水果罐头的平均销售量,是一个常数,本题为2。

根据公式,计算得到每周销量的分布:

从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货(平均59周发生一次)。

再举个例子

假设到银行办业务的人是相互独立的,每个小时m个人。现在问一小时3个人的概率多大?
我们可以把一个小时分成很多区间,比如60个区间,那么每分钟就是m/60个人,如果m/60大于一个人,那我们可以把区间分得更小,不能让单位区间人数超过1人,这样我们就可以把单位区间到达1人认为成功,否则是失败,于是用下面的式子来求概率。
P(x=3)=C(60,3)*(m/60)^3*(1-m/60)^(60-3),这个式子C(60,3)是3个人可以是60个区间的任意3个区间,后面分别是3个区间有人的概率和57个区间无人的概率。
更一般来讲
P(x=k)=C(n,k)*(λ/n)^k*(1-λ/n)^(n-k)=λ^k/k! *exp(-λ)

最大似然估计

给定n个样本值ki,希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数:

对函数L取相对于λ的导数并令其等于零:

解得λ从而得到一个驻点(stationary point):

检查函数L的二阶导数,发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:

最大似然估计举个例子

对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。观察每20秒区间来到候车的乘客批次,共观察77分钟*3=231次,共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100个、81个、34个、9个、6个。使用极大似真估计(MLE),得到的估计为200/231=0.8658。

泊松分布的性质

泊松分布

概率质量函数

累积分布函数
参数
支撑集
概率質量函數
累积分布函数
期望值
众数
方差
偏度
峰度
动差生成函数
特性函数

参考:

【1】 http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88  泊松分布 wiki

【2】 http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html  泊松分布与美国枪击案

【3】 http://maider.blog.sohu.com/304621504.html 如何理解泊松分布和泊松过程

泊松分布知识总结及例子相关推荐

  1. opencv基础知识及其一些例子

    opencv官网 一.插值法 1.最近邻插值 上图可看出f(p)=f(Q11),缺点可能出现明显的块状. 2.线性插值 3.双线性插值 通过线性插值确定R1和R2,最终在确定P 二.cv2.putTe ...

  2. python(dict字典相关知识以及小例子:生成一个列表,存放100个随机整数,找出出现次数最多的数字)

    一.什么是字典? #字典的使用 #子字典是一个容器类,可以用来存储数据 #列表存储数据特点:1.有序的 2.每一个都有一个索引,通过索引可以对数据进行查询,修改,删除#字典存储数据: key:valu ...

  3. 北京大学 微软:预训练模型(Transformer)中的知识神经元

    ©作者 | 方鱼 单位 | 北京科技大学 研究方向 | 问答系统 大型预训练语言模型能很好的记忆训练语料中的事实知识.在这篇文章中,我们探究隐式知识如何存储在预训练 Transformers 中,引出 ...

  4. 斯坦福大学CS520知识图谱系列课程学习笔记:第三讲高级的知识图谱是什么样的

    这一讲的主题是:一些高级的知识图谱是什么样的.三位讲者分别从他们各自带领的团队构建出来的高质量的知识图谱实例出发,从中我们可以认识到一些大佬们构建的优秀的知识图谱产品有哪些特点和优势,从中对我们自己构 ...

  5. 知识图谱的概念、应用与构建

    目录 1.什么是知识图谱? 2.什么是信息提取? 3.自然语言理解 3.1 信息抽取的主要任务 1.什么是知识图谱? 互联网时代,搜索引擎是人们在线获取信息和知识的重要工具.当用户输入一个查询词,搜索 ...

  6. 知识图谱入门学习笔记(一)-概念

    目录 1 知识图谱概念 1.1 深度学习与知识图谱​ 1.2 知识图谱 VS 传统知识库 VS 数据库 1.3 知识图谱本质 1.4 知识表示一语义网络(Semantic Network) 1.5 知 ...

  7. 知识付费系统源码下载带课程数据+一键同步功能和更新设置

    知识付费系统是任何一种存储和检索知识以提高理解.协作和流程一致性的IT系统.知识管理系统可以存在于组织或团队中,但它们也可以用于为用户或客户集中您的知识库. 显然,这是一个宽泛的定义,而且也合情合理, ...

  8. 【论文笔记】 知识图谱 之 TransE算法(Translating Embedding)

    最近对知识图谱比较感兴趣,觉得这会是未来整个人工智能领域的发展方向.知识图谱是对人类知识的结构化总结,试想以后所有我们知道的不知道的事情都能通过知识图谱串在一起,形成一个云图书馆.那么知识图谱是如何建 ...

  9. 知识图谱——感知智能通往认知智能的基石

    导语 人工智能的三个阶段 计算智能:目前机器的计算智能已经远远超过人类水平. 感知智能:感知智能也基本达到(或超过)了人类水平.语音和图像相关的智能被称为感知智能,感知智能只需要识别客体信号就行,比如 ...

最新文章

  1. c# redis 如何设置过期时间_Redis Hash存储token、及设置过期时间
  2. python opencv生成 html5 支持的mp4
  3. 《深入浅出设计模式-中文版》读书笔记-工厂模式(五)
  4. android 泰语资源,Android 泰语、缅甸语等复杂语言圈圈问题
  5. 路由销毁上一页_路由器原理(数据通信)
  6. unity3d 摄像机跟随鼠标和键盘的控制
  7. input css年月日,input标签的type为date,显示的日期格式样式更改
  8. windows核心编程第二章阅读
  9. vb webbrowser html源码,VB WebBrowser控件常用源码
  10. 人群疏散matlab程序,人群疏散方法及系统与流程
  11. XILINX-FPGA下载工具--CH347FPGADownloader
  12. 小学计算机教师应聘简历,应聘小学教师的个人简历模板
  13. MATLAB打开代码,中文注释乱码的解决方法
  14. 优麒麟16.04 LTS长期支持版发布
  15. zabbix2.0 监控华为Quidway S9306交换机实例[完整]
  16. Android React Native使用原生UI组件
  17. STM32 - 影子寄存器
  18. 全基因组完整数据实战
  19. 鼠标点击地面人物自动走动(也包含按键wasdspace控制)
  20. springboot学生宿舍管理系统 毕业设计源码161542

热门文章

  1. 运算放大器分类 、作用及运放的选型
  2. 智能网联汽车测试监控平台解决方案
  3. 联想手机、三星手机安装 凯立德路径设置详细教程
  4. Python-投骰子(random,plotly)
  5. 读-李智慧-大型网站技术架构:核心原理与案例分析
  6. 分享116个JS特效动画效果,总有一款适合您
  7. 最好的婚姻:谈钱、说爱、聊性、话余生
  8. 视频与图片检索中的多模态语义匹配模型 ——原理、启示、应用与展望
  9. js案例 求出最大数和最小数
  10. ThinkPHP5 SQL注入(select方法)