6.1 Introduction

频率学派统计学(frequentist statistics),经典统计学(classical statistics),或者叫正统的统计学(orthodox statistics),设计了一些不把参数当做随机变量的统计推断方法,从而避免了使用贝叶斯法则和先验。

频率学派依赖于抽样分布(sampling distribution),而贝叶斯学派则依赖后验分布(posterior distribution)。

6.2 Sampling distribution of an estimator 估计量的抽样分布

和贝叶斯学派相反,频率学派估计参数时,认为参数是固定的(而不是不确定量,不当做是随机变量,因此也没有先验之说),反而数据是不固定的,可以不断地抽样。比如从总体中抽 S S 次,得到样本集 {D(s)}Ss=1\{\mathcal{D}^{(s)}\}_{s=1}^{S},每个样本都有 N N 个数据,即 D(s)={x(s)i}Ni=1\mathcal{D}^{(s)} = \{x_i^{(s)}\}_{i=1}^{N},注意所有的样例都服从一个固定的分布,即 x(s)i∼p(⋅|θ∗) x_i^{(s)} \sim p(\cdot | \theta *) 对所有的 i,s i, s 都成立。

针对每个样本 D(s) \mathcal{D}^{(s)},可以用 estimator θ^(⋅) \hat\theta(\cdot) 算出一个统计量,如均值,方差等。当 S→∞ S \rightarrow \infty 时, {θ^(D(s))} \{\hat\theta(\mathcal{D}^{(s)})\} 构成新的分布,就叫做是 estimator θ^(⋅) \hat\theta(\cdot) 的抽样分布(sampling distribution).

6.2.1 Bootstrap

一般用蒙特卡洛方法来估计抽样分布(sampling distribution),这种方法就叫做 Bootstrap 方法,而这种方法又分有参数和无参数两种。

继续用上一小节的符号,直接计算 estimator 的结果,每个样本都会得到一个随机变量的取值, θ^s=f(xs1:N) \hat\theta^s = f(x_{1:N}^s),那么可以把经验分布当做是抽样分布。这种方法叫做 无参数 bootstrap,假如 estimator 中的参数 θ \theta 是未知的,那么可以用最大似然估计出来的结果 θ^ \hat\theta 来计算,这种叫做 参数 bootstrap 方法。

6.2.2 Large sample theory for the MLE *

当样本数量趋向无穷大时,那么似然函数的分布趋向于高斯分布,那么高斯分布的中心就是 MLE 的估计结果 θ^ \hat\theta,方差则是 MLE 整个曲面的弯曲情况。可以形式化地定义 score function 为似然函数对参数 θ \theta 的偏导,

s(θ^)≜▽logp(D|θ)|θ^

s(\hat{\boldsymbol\theta}) \triangleq \triangledown \log p(\mathcal{D}|\boldsymbol\theta)|_\hat{\boldsymbol\theta} 再定义 observed information matrix 为上面负的 score function 的导数,

J(θ^(D))≜−▽s(θ^)=−▽2θlogp(D|θ)|θ^

\mathbf{J}(\hat{\boldsymbol\theta}(\mathcal{D})) \triangleq -\triangledown \mathbf{s}(\hat{\boldsymbol\theta}) = - \triangledown_{\boldsymbol\theta}^2 \log p(\mathcal{D}|\boldsymbol\theta) | _\hat{\boldsymbol\theta}

Fisher information matrix 定义为 observed information matrix 的期望,

IN(θ^|θ∗)=Eθ∗[J(θ^|D)]

\mathbf{I}_N(\hat{\boldsymbol\theta}|\boldsymbol\theta^*) = \mathbb{E}_{\boldsymbol\theta^*}[\mathbf{J}(\hat{\boldsymbol\theta}|\mathcal{D})]

6.3 Frequentist decision theory 频率学派决策理论

上一章已经有了 estimator or decision procedure

δ:X→A

\delta: \mathcal{X} \rightarrow \mathcal{A} 的概念,在此基础上定义 风险(risk) 的概念,

R(θ∗,δ)≜Ep(D~|θ∗)[L(θ∗,δ(D~))]=∫L(θ∗,δ(D~))p(D~|θ∗)dD~

R(\theta^*, \delta) \triangleq \mathbb{E}_{p(\mathcal{\tilde D}|\theta^*)}\left [L(\theta^*, \delta(\mathcal{\tilde D})) \right ] = \int L(\theta^*, \delta(\mathcal{\tilde D})) p(\mathcal{\tilde D}|\theta^*) d\mathcal{\tilde D} 然而这个式子是没法直接计算的,所以衍生出下面几种方法。

6.3.1 Bayes risk 贝叶斯风险

第一种方法是加上一个合适的先验,发现会把未知量 θ∗ \theta^* 约去。定义贝叶斯风险(Baues risk)为

RB(δ)≜Ep(θ∗)[R(θ∗,δ)]=∫R(θ∗,δ)p(θ∗)dθ∗

R_B(\delta) \triangleq \mathbb{E}_{p(\theta^*)}[R(\theta^*, \delta)] = \int R(\theta^*, \delta) p(\theta^*) d\theta^* 那么 Bayes estimator 就是

δB≜argminδRB(δ)

\delta_B \triangleq \arg\min_\delta R_B(\delta)

6.3.2 Minimax risk 最小最大风险

然而频率学派的数学家并不喜欢加先验,所以有了第二种方法。定义 maximum risk

Rmax(δ)≜maxθ∗R(θ∗,δ)

R_{max}(\delta) \triangleq \max_{\boldsymbol\theta^*} R(\boldsymbol\theta^*, \delta) 最小化最大风险为

δMM≜argminδRmax(δ)

\delta_{MM} \triangleq \arg\min_\delta R_{max}(\delta) 然而这种风险也很难算。

6.3.3 Admissible estimators

完全不造在讲啥。。。

6.3.3.1 Example

6.3.3.2 Stein’s paradox

6.3.3.3 Admissibility is not enough

6.4 Desirable properties of estimators 想要的估计量性质

将会讲述estimators的一些性质。

6.4.1 Consistent estimators 一致估计量

如果随着样本集的增大,估计量(estimator)会逐渐逼近真实的参数,那么就说这个估计量是一致的(consistent)。即

θ^(D)→θ∗as|D|→∞

\hat\theta(\mathcal{D}) \rightarrow \theta^* \quad\text{as}\quad |\mathcal{D}| \rightarrow \infty 可以正面最大似然估计是一致估计量。因为最大化似然函数等价于最小化 KL KL 混乱度 KL(p(⋅|θ∗)||p(⋅|θ^)) \mathbb{KL}(p(\cdot|\theta^*) || p(\cdot | \hat\theta)) 其中 p(⋅|θ∗) p(\cdot|\theta^*) 是真实的分布, p(⋅|θ^) p(\cdot | \hat\theta) 是我们的估计量。

6.4.2 Unbiased estimators 无偏估计量

估计量的偏置(bias)可以定义为:

bias(θ^(⋅))=Ep(D|θ∗)[θ^(D)−θ∗]

\text{bias}(\hat\theta(\cdot)) = \mathbb{E}_{p(\mathcal{D}|\theta_*)} [\hat\theta(\mathcal{D}) - \theta_*] 其中 θ∗ \theta_* 是真实的参数。假如偏置为零,那么就称该估计量是无偏的。通俗点讲,虽然每个样本有的偏大,有的偏小,但是平均来看偏差为零。比如最大似然估计的均值就是无偏的,而方差却是有偏的。

6.4.3 Minimum variance estimators 最小化方差估计量

Crame-Rao lower bound 证明了方差的下限,而极大似然估计是达到了该下限的,所以 MLE 是渐进最优的(asymptotically optimal)。

6.4.4 The bias-variance tradeoff 偏置-方差之间的权衡

如果考虑均方误差,那么可以推导出

MSE=variance+bias2

\text{MSE} = \text{variance} + \text{bias}^2 可以发现方差和偏置都能减少误差,所以即使用无偏估计,只要能减少误差,那么这个估计量可以认为是有效的。

6.4.4.1 Example: estimating a Gaussian mean

MAP 虽然是有偏估计,但是降低了方差。

6.4.4.2 Example: ridge regression 岭回归

岭回归使用高斯先验,

p(w)=N(w|0,λ−1I)

p(\mathbf{w}) = \mathcal{N}(\mathbf{w}|\mathbf{0}, \lambda^{-1}\mathbf{I}) 其中 precision term λ \lambda 控制了先验的强度,若 λ=0 \lambda = 0,此处的 MAP 等价于 MLE,若 λ>0 \lambda > 0,那么是有偏估计(biased estimate)。

6.4.4.3 Bias-variance tradeoff for classification

对于分类问题而言,bias-variance tradeoff 不是很有用,可以选用交叉验证来估计损失。

6.5 Empirical risk minimization 经验风险最小化

频率决策理论有个很大的问题,就是没办法直接计算风险函数。可以考虑把损失函数 L(θ,δ(D)) L(\boldsymbol{\theta}, \delta(\mathcal{D})) 的形式换成 L(y,δ(x)) L(y, \delta(\mathbf{x})),其中 y y 指的是真实的标签,而 δ(x)\delta(\mathbf{x}) 则是给定输入 x \mathbf{x} 后得到的预测,那么风险为

R(p∗,δ)≜E(x,y)∼p∗[L(y,δ(x))]=∑x∑yL(y,δ(x))p∗(x,y)

R(p_*, \delta) \triangleq \mathbb{E}_{(\mathbf{x},y) \sim p_*}[L(y, \delta(\mathbf{x}))] = \sum_\mathbf{x} \sum_y L(y, \delta(\mathbf{x})) p_*(\mathbf{x}, y) 其中 p∗ p_* 表示 nature’s distribution,就是真实的样本分布,显然是未知的。然而可以用经验分布来估计(approximate),即

p∗(x,y)≈pemp(x,y)=1N∑i=1Nδxi(x)δyi(y)

p_*(\mathbf{x}, y) \approx p_{emp}(\mathbf{x}, y) = \frac1N \sum_{i=1}^N \delta_{\mathbf{x}_i}(\mathbf{x})\delta_{y_i}(y) 这个式子是经验风险的定义, δ \delta 是 Dirac measure,经验风险基本就是排个序再累加就可以得到积累分布函数了。可以参考书里 P37 P_{37} 经验风险的概念。

那么经验风险(empirical risk)可以定义如下,

Remp(D,δ)≜R(pemp,δ)=1N∑i=1NL(yi,δ(xi))

R_{emp}(\mathcal{D}, \delta) \triangleq R(p_{emp}, \delta) = \frac1N \sum_{i=1}^N L(y_i, \delta(\mathbf{x}_i)) 假如损失是 0-1 损失,那么变成了经验风险就是误分类率;若是平方损失,经验风险就是均值方差。经验风险最小化(empirical risk minimization or ERM)就是寻找这样的 decision procedure 来最小化经验风险函数,

δERM(D)=argminδRemp(D,δ)

\delta_{ERM}(\mathcal{D}) = \arg\min_\delta R_{emp}(\mathcal{D}, \delta)

如果是非监督问题,可以把所有的 y y 换成 xx,比如 L(y,δ(x))→L(x,δ(x)) L(y, \delta(\mathbf{x})) \rightarrow L(\mathbf{x}, \delta(\mathbf{x})),具体地,若是均方误差, L(x,δ(x))=∥x−δ(x)∥22 L(\mathbf{x}, \delta(\mathbf{x})) = \left \| \mathbf{x} - \delta(\mathbf{x}) \right \| _2^2 ;若是在 vector quantization or PCA 问题中,又可以定义 δ(x)=decode(encode(x)) \delta(\mathbf{x}) = \text{decode}(\text{encode}(\mathbf{x})).

定义无监督问题的经验风险,

Remp(D,δ)=1N∑i=1NL(xi,δ(xi))

R_{emp}(\mathcal{D}, \delta) = \frac1N \sum_{i=1}^{N} L(\mathbf{x}_i, \delta(\mathbf{x}_i))

6.5.1 Regularized risk minimization 正则化风险最小化

假如把经验分布当做先验分布,那么经验风险就等价于贝叶斯风险,

E[R(p∗,δ)|p∗=pemp]=Remp(D,δ)

\mathbb{E}[R(p_*, \delta) | p_* = p_{emp}] = R_{emp}(\mathcal{D}, \delta) 所以最小化经验风险容易过拟合,经常会给目标函数(objective function)增加一个复杂度惩罚(complexity penalty),

R′(D,δ)=Remp(D,δ)+λC(δ)

R'(\mathcal{D}, \delta) = R_{emp}(\mathcal{D}, \delta) + \lambda C(\delta) 其中 C(δ) C(\delta) 是衡量了预测函数(predictive function) δ(x) \delta(\mathbf{x}) 的复杂性,而 λ \lambda 控制了复杂度惩罚的权重。这种方法就是 正则化风险最小化(RRM, Regularized risk minimization)。注意如果考虑 log \log 似然,那么 RRM 和 MAP 是等价的,对数正则化项就等于先验。

对于函数 C(δ) C(\delta),在线性模型中可以定义为自由度(degrees of freedom),更一般的模型中可以用 VC VC 维(VC dimension)来定义。

6.5.2 Structural risk minimization 结构风险最小化

通过结构风险最小化来找到最优的预测函数,

δ^λ=argminδ[Remp(D,δ)+λC(δ)]

\hat\delta_\lambda = \arg\min_\delta [R_{emp}(\mathcal{D}, \delta) + \lambda C(\delta)] 可以通过结构风险最小化(structural risk minimization)来估计 λ \lambda 的值,

λ^=argminλR^(δ^λ)

\hat\lambda = \arg\min_\lambda \hat R (\hat\delta_\lambda) 其中 R^(δ^λ) \hat R (\hat\delta_\lambda) 表示对风险的估计

6.5.3 Estimating the risk using cross validation 用交叉验证估计风险

我们平常把数据分成训练集,验证集的做法,不叫交叉验证,下面讲述交叉验证的做法。定义用来查找最优化参数 θ \theta 的函数 F \mathcal{F} 为 learning algorithm or fitting function

θ^m=F(D,m)

\hat{\boldsymbol\theta}_m = \mathcal{F}(\mathcal{D}, m) 其中 m m 表示第 mm 个模型,因此不同的模型会得出不同的参数。(其实这里不同的参数就表示不同的模型,比如 θ=0.5 \theta = 0.5 和 θ=0.7 \theta = 0.7 的两个伯努利概率算作是不同的模型。)我们的目标就是找出泛化误差最小的模型和对应模型的参数。可以把 F \mathcal{F} 看做是训练的过程。

定义 P \mathcal{P} 为预测函数(prediction function),

y^=P(x,θ^)=f(x,θ^)

\hat y = \mathcal{P}(\mathcal{x}, \hat\theta) = f(\mathbf{x}, \hat\theta) 可以看做是预测的过程,模型已经训练好。

可以把训练和预测两个步骤(书里叫做 fit-predict cycle)合起来表示,

fm(x,D)=P(x,F(D,m))

f_m(\mathbf{x}, \mathcal{D}) = \mathcal{P}(\mathbf{x}, \mathcal{F}(\mathcal{D}, m))

考虑把原始数据集 D \mathcal{D} 均匀地分成 K K 份,把第 kk 份数据集当做验证集,并称为 Dk \mathcal{D}_k, 剩下的数据集当做是训练集,称为 D−k \mathcal{D}_{-k} 。那么对预测函数 fm(x,D) f_m(\mathbf{x}, \mathcal{D}) 总的 K K 重交叉验证(K-fold CV)的风险就是

R(m,D,K)≜1N∑k=1K∑i∈DkL(yi,P(xi,F(D−k,m)))

R(m, \mathcal{D}, K) \triangleq \frac1N \sum_{k=1}^K \sum_{i \in \mathcal{D}_k} L(y_i, \mathcal{P}(\mathbf{x}_i, \mathcal{F}(\mathcal{D}_{-k}, m))) 可以从公式中看到 F \mathcal{F} 用了 K K 次,即要训练 KK 次才能算出最后的风险。即第 k k 次在训练集 D−k\mathcal{D}_{-k} 中训练完了以后,在验证集 Dk \mathcal{D}_k 中算一个误差。把这 k=1,...,K k=1,...,K 次的结果累加后就是 R(m,D,K) R(m, \mathcal{D}, K) 的结果。

假设第 k k 次训练完得到的模型为 fkm(x)=P(x,F(D−k,m))f_m^k(\mathbf{x}) = \mathcal{P}(\mathbf{x}, \mathcal{F}(\mathcal{D}_{-k}, m)),就可以重写上面的公式为

R(m,D,K)=1N∑k=1K∑i∈DkL(yi,fkm(xi))=1N∑i=1NL(yi,fk(i)m(xi))

R(m, \mathcal{D}, K) = \frac1N \sum_{k=1}^K \sum_{i \in \mathcal{D}_k} L(y_i, f_m^k(\mathbf{x}_i)) = \frac1N \sum_{i=1}^N L \left (y_i, f_m^{k(i)}(\mathbf{x}_i) \right ) 后面一个不太好理解,其实仔细想一下, K K K 次交叉验证下来,每一个样本都会做一次验证集,所以外循环是遍历一遍数据集。其中 fk(i)mf_m^{k(i)} 表示把该样本做验证集,剩下的数据做训练集时对应训练出来的模型。

考虑一种极端的情况,取 K=N K = N,即每次挑一个样本做验证集,剩下的所有样本做训练集。这种方法叫做留一交叉验证(LOOCV, leave one out cross validation),这种情况又可以把这个式子简写为

R(m,D,K)=1N∑i=1NL(yi,f−im(xi))

R(m, \mathcal{D}, K) = \frac1N \sum_{i=1}^N L \left (y_i, f_m^{-i}(\mathbf{x}_i) \right ) 其中 f−im(x)=P(x,F(D−i,m)) f_m^{-i}(\mathbf{x}) = \mathcal{P}(\mathbf{x}, \mathcal{F}(\mathcal{D}_{-i}, m)),可见模型要训练 N N 次。

6.5.3.1 Example: using CV to pick λ\lambda for ridge regression

上面的公式是通用的,现在举岭回归的例子来讲解。我们选 ℓ2 \ell_2 正则项来做线性回归的惩罚,

λ^=argminλ∈[λmin,λmax]R(λ,Dtrain,K)

\hat\lambda = \arg\min_{\lambda \in [\lambda_{min}, \lambda_{max}]} R(\lambda, \mathcal{D}_{train}, K) 其中 λ^ \hat\lambda 是正则化项系数的取值范围, R(λ,Dtrain,K) R(\lambda, \mathcal{D}_{train}, K) 是用上面讲的 K K 重交叉验证估计的对应 λ\lambda 的经验风险,具体是,

R(λ,Dtrain,K)=1|Dtrain|∑k=1K∑i∈DkL(yi,fkλ(xi))

R(\lambda, \mathcal{D}_{train}, K) = \frac1{|\mathcal{D}_{train}|} \sum_{k=1}^K \sum_{i \in \mathcal{D}_k} L(y_i, f_\lambda^k(\mathbf{x}_i)) 其中 fkλ(xi)=xTw^λ(D−k) f_\lambda^k(\mathbf{x}_i) = \mathbf{x}^T \hat{\mathbf{w}}_\lambda(\mathcal{D}_{-k}) 表示对应训练出来的预测函数,而

w^λ(D)=argminwNLL(w,D)+λ∥w∥22

\hat{\mathbf{w}}_\lambda(\mathcal{D}) = \arg\min_{\mathbf{w}} \text{NLL}(\mathbf{w}, \mathcal{D}) + \lambda \| \mathbf{w} \|_2^2 是最大后验估计的参数。

对于分类问题,可以用蛮力搜索参数空间;但是参数过多时,一般会选用经验贝叶斯,可以用一些基于梯度的优化器(optimizer)来搜索解空间。

6.5.3.2 The one standard error rule 标准误差

前面一直在讲怎样估计风险,一直没有给出不确定性度量。可以定义平均标准误差(standard error of the mean)为,

se=σ^N−−√=σ^2N−−−√

se = \frac{\hat\sigma}{\sqrt{N}} = \sqrt{\frac{\hat\sigma^2}{N}} 其中

σ^2=1N∑i=1N(Li−L¯¯¯)2,Li=L(yi,fk(i)m(xi)),L¯¯¯=1N∑i=1NLi

\hat\sigma^2 = \frac1N \sum_{i=1}^N(L_i - \overline L)^2,\quad L_i = L(y_i, f_m^{k(i)}(\mathbf{x}_i)), \quad \overline L = \frac1N \sum_{i=1}^N L_i 其实就是在交叉验证的过程,每个样本算一下损失,最后算一下所有样本对应损失的方差,再得到标准误差的值。

6.5.3.3 CV for model selection in non-probabilistic unsupervised learning

路过~

6.5.4 Upper bounding the risk using statistical learning theory * 用统计学习理论来估计风险上界

这一小节可以参考李航的《统计机器学习》第一章和 cs229 公开课的 Part VI Learning Theory


利用交叉验证的方法来估计经验风险,有个很大的问题就是非常慢,因为要训练好多次。而 统计学习理论(SLT, statistical learning theory)的方法则试图找到 泛化误差上界(Upper Bound)

假如分布 p∗ p_* 和 假设(hypothesis) h∈H h \in \mathcal{H} 的风险表示为 R(p∗,h) R(p_*, h),而 Rtemp(D,h) R_{temp}(\mathcal{D}, h) 表示在数据集 D \mathcal{D} 上的经验风险,假设空间的大小表示为 dim(H)=|H| \text{dim}(\mathcal{H}) = |\mathcal{H}|,那么有下面的定理成立,

Theorem 6.5.1 经验风险误差上界为

P(maxh∈H|Remp(D,h)−R(p∗,h)|>ϵ)≤2dim(H)e−2Nϵ2

P\left ( \max_{h \in \mathcal{H}} | R_{emp}(\mathcal{D}, h) - R(p_*, h) | > \epsilon \right ) \le 2 \text{dim}(\mathcal{H})e^{-2N\epsilon^2}

这个上界可以通过 Hoeffding’s inequalityunion bound 直接得到,具体函数和定理的证明略过。

从误差上界的表达式来看,假设空间 H \mathcal{H} 越小,或者训练集越大,那么上界误差就会越小。对于实数型参数,假设空间是无限的,可以用 VC VC 维的概念来解决。

从另一个角度来看,更复杂的模型虽然不会增加训练集上的误差,但是一般会有更多的参数,那么参数空间(也就对应假设空间)也会更大,即 dim(H) \text{dim}(\mathcal{H}) 这项会更大,从而造成泛化误差上界很大。这个也是符合常理的。

误差上界的方法确实比交叉验证要快,然而对很多模型, VC VC 维一般很难计算,且误差上界都会太松(loose)。

6.5.5 Surrogate loss function

这一小节提到的 binary logistic regression 没看懂,先挖个坑;还有怎么 log-loss 就能退出来极大似然估计了?

Log-loss 是一种代理损失函数(surrogate loss functions),另一种注明的代理损失函数就是合页损失(hinge loss),

Lhinge(y,η)=max(0,1−yη)

L_{hinge}(y, \eta) = \text{max}(0, 1 - y\eta) 这个损失函数在 SVM 里会用到,是用来代替 0-1 损失的。

6.6 Pathologies of frequentist statistics * 频率统计的病态

6.6.1 Counter-intuitive behavior of confidence intervals

6.6.2 p-values considered harmful

6.6.3 The likelihood principle

6.6.4 Why isn’t everyone a Bayesian

MLaPP Chapter 6 Frequentist statistics 频率学派统计学相关推荐

  1. 贝叶斯统计(Bayesian statistics) vs 频率统计(Frequentist statistics):marginal likelihood(边缘似然)

    1. Bayesian statistics 一组独立同分布的数据集 X=(x1,-,xn)\mathbb X=(x_1, \ldots, x_n)(xi∼p(xi|θ)x_i\sim p(x_i|\ ...

  2. 统计学中的频率学派与贝叶斯学派

    对于技术应用人员来说,我们更看重方法的应用,但有时候对知识的背景做一些了解,我觉得还是挺有必要的,能帮助我们理解一些东西.这篇博文里,不会呈现任何计算公式,只是讨论一下贝叶斯学派与频率学派之间的问题. ...

  3. 频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

    作者:夏飞 Google | 软件工程师 量子位 已获授权编辑发布 转载请联系原作者 本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士,现为谷歌软件工程师. 在这篇文章中,他探讨了机器 ...

  4. 从一个例子看频率学派与贝叶斯学派的不同(Python)

    考虑如下的一个游戏场景: setup: Alice and Bob enter a room. Behind a curtain there is a billiard table, which th ...

  5. 再谈贝叶斯学派与频率学派的区别

    频率主义(Frequentism)与贝叶斯主义(Bayesianism)的哲学辨异与实践(Python仿真) 从 Beta_Binomial共轭分布开始说起: Beta(p|α,β)+BinomCou ...

  6. 频率学派与贝叶斯学派(先验分布与后验分布,MLE和MAP)

    频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派. 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范 ...

  7. 德国坦克问题及频率学派与贝叶斯学派

    转载:Tony's blog: 德国坦克问题及频率学派与贝叶斯学派 (tonysh-thu.blogspot.com) 这是一个看起来很基础很简单的经典问题:假设所有的德国坦克是从1开始按自然数递增编 ...

  8. 频率学派(似然估计)与贝叶斯学派(后验估计)

    "若是心怀旧梦,就别再无疾而终!" 频率学派与贝叶斯学派 作为统计学的两大学派,由于对统计推断的观点不一致,相应的方法也不一样.本文主要小结两派思想的区别,并结合实例对两种思想对应 ...

  9. 【机器学习】贝叶斯学派与频率学派有何不同?

    要说贝叶斯和频率学派,那简直太有意思了.为什么这么说呢?因为两个学派的理解对于我来说真的是一场持久战.我是在学习机器学习的时候接触到的这两个学派,此前并不知道,当时就被深深吸引了,于是找了各种资料学习 ...

最新文章

  1. 2022-2028年中国钢铁电商产业竞争现状及发展前景预测报告
  2. oracle constraint_type 问题
  3. java mongoTemplate的group统计
  4. 使用SAP C4C的OData服务的deep insert操作创建Lead
  5. [C++11]常量表达式函数
  6. PHP的钩子实现解析
  7. 授人以鱼不如授人以渔,UCHome全面大解析培训活动【第三集】
  8. collection集合 多少钱_面试必备-Java集合框架
  9. vs2017c#开源项目_2017年值得关注的开源项目
  10. python3.6sysos_python3.6实现学生信息管理系统
  11. 2021-2025年中国伊维菌素原料药行业市场供需与战略研究报告
  12. 算法_EXCEL中 A表示第一列,B表示第二列...AA表示27列,AB表示28列,问随意一组字母是多少列
  13. Vm虚拟机Deepin安装教程---kalrry
  14. 总结揭露黑客入侵网站的手法
  15. 网页上为何出现连接超时,怎么解决呢?
  16. DM数据库配置开机自启动
  17. Maven配置nexus私服地址
  18. GCC 编译链接命令用法
  19. 【Git】从安装配置到简单使用
  20. matlab函数用法

热门文章

  1. 人美声甜!这个“清华AI新生”火了,网友直呼惊艳
  2. 数据分析案例-顾客购物数据可视化分析(文末送书5本)
  3. 已经发车的票还能取出来吗_网上买的火车票在火车开车后还能取出票吗?
  4. 【java基础:HashMap】统计字符出现的次数
  5. Java Stream 流集合去重排序
  6. Fedora14下的Novas和Synopsys
  7. 2021-06-10 srm平台的采购员谈判技巧
  8. Linux一键安装xrdp,centos7安装xrdp
  9. python相册图片处理_Python实现图片相似度计算
  10. Scrapyd使用详解