贝叶斯方法（实例1）—

频率派认为概率是事件在长时间内发生的频率；贝叶斯派把概率解释成是对事件发生的信心。

如果频率推断和贝叶斯推断是一种编程函数，输入是各种统计问题，那么这两个函数返回的结果可能是不同的。频率推断返回一个估计值（通常是统计量），而贝叶斯推断则会返回概率值。

实例：图书管理员还是农民

故事的灵感来自于Daniel Kahneman的《思考，快与慢》一书，史蒂文被描述为一个害羞的人，他乐于助人，但是他对其他人不太关注。他非常乐见事情处于合理的顺序，并对他的工作非常细心。你会认为史蒂文是一个图书管理员还是一个农民？

从上面的描述来看，大多数人会认为史蒂文更像是图书管理员，但是却忽略了一个关于图书管理员和农民的事实：男性图书管理员的人数只有男性农民的1/20。所以，从统计学来看史蒂文更有可能是一个农民。

把问题简化，假设世上只有两种职业——图书管理员和农民，并且农民的数量确实是图书管理员的20倍。

设事件A为史蒂文是一个图书管理员。如果我们没有史蒂文的任何信息，那么P(A) = 1/21 = 0.047，这是我们的先验。

现在假设从史蒂文的邻居们那里得到了关于他的一些消息，我们称它为X。我们想知道的就是P(A|X)，由贝叶斯定理得：

P(X|A)可以被定义为在史蒂文真的是一个图书管理员的情况下，邻居们给出的某种描述的概率。即如果史蒂文真的是一个图书管理员，他的邻居们将他描述为一个图书管理员的概率，这个值可能接近于1，假设它为0.95。

P(X)可以解释为：任何人对史蒂文的描述和史蒂文邻居的描述一致的概率。我们将其改造为： P(X)=P(X and A) + P(X and ~A)=P(X|A)P(A) + P(X|~A)P(~A) 其中~A表示史蒂文不是一个图书管理员的事件，那么他一定是一个农民。

现在我们知道P(X|A)和P(A)，另外也可知P(~A)=1-P(A)=20/21。现在我们只需知道P(X|~A)，即在史蒂文为一个农民的情况下，史蒂文的邻居们给出的某种描述的概率即可，假设它为0.5，这样 P(X)=0.95*1/21 + 0.5*20/21=0.52

结合以上，P(A|X)=(0.95*1/21)/0.52=0.087

这个值并不算高，但考虑到农民的数量比图书管理员的数量多那么多，这个结果也非常合理了。

具体实现代码如下：

# -*- coding: utf-8 -*-
from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as pltfigsize(12.5, 4)
plt.rcParams['savefig.dpi'] = 100
plt.rcParams['figure.dpi'] = 100
colors = ['#348ABD', '#A60628']prior = [1/21., 20/21.]
posterior = [0.087, 1-0.087]
plt.bar([0, .7], prior, alpha=0.70, width=0.25,        color=colors[0], label="prior distribution",        lw="3", edgecolor="#348ABD")        plt.bar([0+0.25, .7+0.25], posterior, alpha=0.7,        width=0.25, color=colors[1],        label="posterior distribution",        lw="3", edgecolor="#A60628")        plt.xticks([0.20, 0.95], ["Librarian", "Farmer"])
plt.title("Prior and posterior probabilities \of Steve's occupation")
plt.ylabel("Probability")
plt.legend(loc="upper left")

结果如下图：

概率分布

设Z为一个随机变量，那么就存在一个跟Z相关的概率分布函数，给定Z任何取值，它都得到一个相应的概率值。我们把随机变量分为3中类别：

Z为离散的，离散随机变量的取值只能是在特定的列表中。
Z为连续的，连续型随机变量的值可以是任意精度数值。
Z为混合的，混合型随机变量的值可以为以上两种形式。

离散情况

如果Z是离散的，那么它的分布为概率质量函数，它度量的是当Z取值为k是的概率，用P(Z=K)表示。

设Z服从Poisson分布：

λ被称为此分布的一个参数，它决定了这个分布的形式。对于Poisson分布来说，λ可以为任意正数，λ可以被称为Poisson分布的强度。

跟λ可以为任意值不同，值k可以为任意非负整数，即k必须为0、1、2之类的值。

不同λ取值，Poisson随机变量的概率质量函数：

from IPython.core.pylabtools import figsize
from matplotlib import pyplot as plt
import numpy as np
import scipy.stats as statsfigsize(12.5, 4)a = np.arange(16)
poi = stats.poisson
lambda_ = [1.5, 4.25]
colors = ["#348ABD", "#A60628"]plt.bar(a, poi.pmf(a, lambda_[0]), color=colors[0],label="$\lambda = %.1f$" % lambda_[0], alpha=0.60,edgecolor=colors[0], lw="3")plt.bar(a, poi.pmf(a, lambda_[1]), color=colors[1],label="$\lambda = %.1f$" % lambda_[1], alpha=0.60,edgecolor=colors[1], lw="3")plt.xticks(a + 0.4, a)
plt.legend()
plt.ylabel("Probalitity of $k$")
plt.xlabel("$k$")
plt.title("Probability mass function of \a Poisson random variable, \differing $\lambda$ values")

结果如下：

连续情况

对应于离散情况下的概率质量函数，连续情况下概率分布函数被称为概率密度函数。举一个连续型随机变量的例子：指数密度。指数密度随机变量的密度函数如下：

类似于Poisson随机变量，指数随机变量只可以取非负值。但是和Poisson分布不同的是，这里的指数可以取任意非负值，包括非整数。

对指定的参数λ，指数型随机变量的期望值为λ的逆，即

不同λ取值情况下，指数分布的概率密度函数：

from IPython.core.pylabtools import figsize
from matplotlib import pyplot as plt
import numpy as np
import scipy.stats as statsfigsize(12.5, 4)a = np.linspace(0, 4, 100)
expo = stats.expon
lambda_ = [0.5, 1]
colors = ["#348ABD", "#A60628"]for l, c in zip(lambda_, colors):plt.plot(a, expo.pdf(a, scale=1./l), lw=3,color=c, label="$\lambda = %.1f$" % l)plt.fill_between(a, expo.pdf(a, scale=1./l),color=c, alpha=.33)plt.legend()
plt.ylabel("Probability density function at $z$")
plt.xlabel("$z$")
plt.ylim(0, 1.2)
plt.title("Probabiltiy density function of \an exponential random variable, \differing $\lambda$ values")

结果如下：

注意：概率密度方程在某一点的值并不等于它在这一点的概率。

参考文献：

贝叶斯方法. Cameron Davidson-Pilon 著. 辛愿等译