文章目录

1. 贝叶斯公式
- 1.1 条件概率
- 1.2 全概率公式
- 1.3 贝叶斯公式
2. 贝叶斯决策论
- 2.1 引言
- 2.2 基本思想
- 2.3 贝叶斯决策论
- - 2.3.1 决策过程/思路
  - 2.3.2 求后验概率
3. 极大似然估计
- 3.1 引言
- 3.2 似然公式
- 3.3 对数似然公式
- 3.4 例：类条件概率满足正态分布

1. 贝叶斯公式

1.1 条件概率

概念

- "P(B|A):"P(B|A):在事件A发生的基础上，事件B发生的概率- "例如："题目：抛一枚硬币两次，观察正反情况。A = "至少有一次出现正面"B = "两次都出现同一面"(1)求：P(B)(2)已知A发生的条件下，事件B的概率。解：(1)P(B) = 1/2*1/2(都为正) + 1/2*1/2(都为反) = 1/2(2)样本空间： Ω = {正正，正反，反反，反正}A = {正正，正反，反正}B = {正正，反反}P(B|A) = 1/3

公式

P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}P(B∣A)=P(A)P(AB)

推导

1. 定义法：
P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}P(B∣A)=P(A)P(AB)

2. 缩减样本空间法：

P(B∣A)=n(AB)n(A)=n(AB)n(Ω)n(A)n(Ω)=P(AB)P(A)P(B|A)=\frac{n(AB)}{n(A)}=\frac{\frac{n(AB)}{n(Ω)}}{\frac{n(A)}{n(Ω)}}=\frac{P(AB)}{P(A)}P(B∣A)=n(A)n(AB)=n(Ω)n(A)n(Ω)n(AB)=P(A)P(AB)

先验、后验概率

- "先验概率："1. P(A)2. 通过以往的数据分析得到- "后验概率："1. P(B|A)2. 得到新的信息而重新加以修正的概率

概率乘法公式

P(AB)=P(A)P(B∣A)P(AB)=P(A)P(B|A)P(AB)=P(A)P(B∣A)

P(AB)=P(B)P(A∣B)P(AB)=P(B)P(A|B)P(AB)=P(B)P(A∣B)

P(ABC)=P(AB)P(C∣AB)=P(A)P(B∣A)P(C∣AB)P(ABC)=P(AB)P(C|AB)=P(A)P(B|A)P(C|AB)P(ABC)=P(AB)P(C∣AB)=P(A)P(B∣A)P(C∣AB)

1.2 全概率公式

条件

- "要用全概率公式，要满足的条件："完备事件组- "完备事件组："1. 事件组并起来为Ω （Ω = B1 + B2 + B3）2. 两两相交为空集

全概率要解决的问题

- "简答来说："1. 就是求事件A，在完备事件组Bi中的概率。2. 相当于,A在不同完备事件Bi中，权重不同，3. 算A在Bi的权重概率，再求和。- "重要，非常重要："1. 不要死记公式2. 不要死记公式3. 不要死记公式（有些时候复杂一点，A,B顺序也不一样，绕两下你就可能昏了）

示例

【图解】

【全概率----------->P(A)】

P(A)=P(AB1)+P(AB2)+P(AB3)P(A)=P(AB_1)+P(AB_2)+P(AB_3)P(A)=P(AB1)+P(AB2)+P(AB3)

【乘法公式】

P(AB)=P(B)P(A∣B)P(AB)=P(B)P(A|B)P(AB)=P(B)P(A∣B)

全概率公式

P(A)=∑i=1nP(Bi)P(A∣Bi)P(A)=\sum_{i=1}^nP(B_i)P(A|B_i)P(A)=i=1∑nP(Bi)P(A∣Bi)

1.3 贝叶斯公式

公式

P(Bi∣A)=P(Bi)P(A∣Bi)∑j=1nP(Bj)P(A∣Bj)P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)

用实际来理解

【题目】

一个机器由A,B,C三种零件组成，组成的权重分别为：0.1，0.4，0.5。
A,B,C三种零件发生故障的概率分别为：0.7,0.1,0.2"问："
当有一个零件发生故障时，这个零件最有可能是哪一类?

【解法】

分别算A,B,C三类，比大小**- "全概率："
P(全) = （0.1*0.7）+（0.4*0.1）+（0.5*0.2）= 0.21- "A"
P(A) = 0.1*0.7- "B"
P(B) = 0.4*0.1- "C"
P(C) = 0.5*0.2- "选最大"

一般用公式：算每一类

P(B1∣A)=P(AB1)P(A)=P(B1)P(A∣B1)P(A)P(B_1|A)=\frac{P(AB_1)}{P(A)}=\frac{P(B_1)P(A|B_1)}{P(A)}P(B1∣A)=P(A)P(AB1)=P(A)P(B1)P(A∣B1)
P(A)：为全概率P(A)：为全概率P(A)：为全概率

2. 贝叶斯决策论

2.1 引言

- "为什么要知道贝叶斯公式？"1. 通过数学公式，反过来理解如何进行分类2. 贝叶斯公式，简答但重要3. 基于概率论- "NB算法："1. NB算法就是朴素贝叶斯分类算法2. Naive Bayes3. 朴素：后面会将，简单理解：特征条件独立（特征=维度=属性）- "贝叶斯决策论:"1. 这一节是基础，你要先知道，贝叶斯决策的思想2. 必要的概率论知识（数学功底）- "为什么学习贝叶斯决策论？"1. 许多机器学习算法都与概率论相关，而概率论中有贝叶斯2. 理解贝叶斯决策理论思想，就可以理解它如何分类3. 贝叶斯决策论是本质- "这一节的目的："1. 顾名思意，贝叶斯决策是基于概率来进行决策2. 属于机器学习分支————统计机器学习3. 本节目的是：知道贝叶斯决策的思路，思想，通过逐点推导，让你知道它到底基于什么，⽬的⼜是什么。

2.2 基本思想

- "贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是："★已知类条件概率密度参数表达式和先验概率★利用贝叶斯公式转换成后验概率★根据后验概率大小进行决策分类

2.3 贝叶斯决策论

2.3.1 决策过程/思路

一、期望损失

【定义】

假设有 N 种可能的类别标记，即 y = {Cl C2 ，… CN} ，λij 是将一个真实标记为 Cj 的样本误分类为 Ci 所产生的损失。
基于后验概率 P(Ci|x) 可获得将样本 x 分类为 Ci 所产生的期望损失(expected loss) ,
即在样本 x 上的"条件风险" (conditional risk)"注："决策论中将"期望损失"称为"风险" (risk)

【公式】

R(Ci∣x)=∑j=1NλijP(Cj∣x)R(C_i|x)=\sum_{j=1}^N\lambda_{ij}P(C_j|x)R(Ci∣x)=j=1∑NλijP(Cj∣x)

二、总体风险

R(h)=Ex[R(h(x)∣x)]R(h)=E_x[R(h(x)|x)]R(h)=Ex[R(h(x)∣x)]

三、贝叶斯最优分类器

h∗(x)=argminC∈yR(C∣x)h^*(x)=arg\ min_{C\in y}\ R(C|x)h∗(x)=arg minC∈y R(C∣x)

四、分类器的精度

Accuracy=1−R(h∗)Accuracy = 1-R(h^*)Accuracy=1−R(h∗)

R(h∗)总体风险称为"贝叶斯风险（Bayesrisk）"R(h^*)总体风险称为"贝叶斯风险（Bayes risk）"R(h∗)总体风险称为"贝叶斯风险（Bayesrisk）"

★★★五、最小化分类错误率的贝叶斯最优分类器

【误判损失】

λij={0ifi=j1otherwise\lambda_{ij} = \left\{ \begin{array}{lr} 0 & if\ \ \ i=j\\[6pt] 1 & otherwise \end{array} \right. λij={01if i=jotherwise

【条件风险】
R(C∣x)=1−P(C∣x)R(C|x)=1-P(C|x)R(C∣x)=1−P(C∣x)

【最小化分类错误率的贝叶斯最优分类器】

h∗(x)=argminC∈yP(C∣x)h^*(x)=arg\ min_{C\in y}\ P(C|x)h∗(x)=arg minC∈y P(C∣x)

2.3.2 求后验概率

引言

- 欲使用贝叶斯判定准则来最小化决策风险，
- 首先要获得后验概率 P(C|x).
- 然而，在现实任务中这通常难以直接获得.
- 从这个角度来看,机器学习所要实现的是基于有限的训练样本集尽可能准确地估计出后验概率 P(C|x)

P(C|x)

P(C∣x)=P(C)P(x∣C)P(x)P(C|x)=\frac{P(C)P(x|C)}{P(x)}P(C∣x)=P(x)P(C)P(x∣C)

- "分类思想："1. 通过训练集，计算先验概率P(C)。（就是样本空间中各类样本所占的比例）2. P(x|C):得到新的信息而重新加以修正的概率（样本x 相对于类标记 C 的类条件概率，或称为"似然" (likelihood)）3. 总之，就是通过训练集，求得P(C),P(x|C)4. 所以有方法：极大似然估计

3. 极大似然估计

3.1 引言

- "概率模型的训练就是参数估计的过程："估计"类条件概率"的一种常用"策略"是先假定其具有某种确定的"概率分布形式"，
再基于训练样本对"概率分布的参数"进行估计.具体地，记关于类别 C 的类条件概率为 P(x|C), 假设 P(x|C) 具有确定的形式
并且被参数向量 θc 唯一确定，则我们的任务就是利用训练集 D 估计参数 θc .为明确
起见，我们将 P(x|C) 记为 P(x|θc).- "基于频率主义的极大似然估计："1. 事实上，概率模型的训练过程就是参数估计(parameter estimation) 过程.2. 对于"参数估计"，统计学界的两个学派分别提供了不同的解决方案:(1)频率主义学派(Frequentist) 认为参数虽然未知，但却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值;(2)贝叶斯学派(Bayesian) 则认为参数是未观察到的随机变量?其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布.3. 本节介绍源自频率主义学派的极大似然估计(Maximum Likelihood Estimation，简称 MLE) ，这是根据数据采样来估计概率分布参数的经典方法.

3.2 似然公式

P(DC∣θC)=∏x∈DCP(x∣θC)P(D_C|\theta_C)=\prod_{x\in D_C}P(x|\theta_C)P(DC∣θC)=x∈DC∏P(x∣θC)

- "P(Dc|θc)"表示参数 θc 对于数据集 Dc 的似然- "Dc"表示训练集 D 中第 c 类样本组成的集合- "极大似然估计："极大似然估计是试图在 θc 所有可能的取值中，找到一个能使数据出现的"可能性"最大的值.- "注意："1. 连乘操作易造成下溢2. 通常使用"对数似然（log-likelihood）"

3.3 对数似然公式

对数似然公式

LL(θC)−logP(DC∣θC)=∑x∈DClogP(x∣θC)LL(\theta_C)-log\ P(D_C|\theta_C)=\sum_{x\in D_C}log\ P(x|\theta_C)LL(θC)−log P(DC∣θC)=x∈DC∑log P(x∣θC)

参数θC\theta_CθC的极大似然估计θC^\hat{\theta_C}θC^

θC^=argmaxθCLL(θC)\hat{\theta_C}=arg\ max_{\theta_C}\ LL(\theta_C)θC^=arg maxθC LL(θC)

3.4 例：类条件概率满足正态分布

【贝叶斯分类1】贝叶斯决策论相关推荐

【数据挖掘】贝叶斯分类 ( 贝叶斯分类器 | 贝叶斯推断 | 逆向概率 | 贝叶斯公式 | 贝叶斯公式推导 | 使用贝叶斯公式求逆向概率 )
文章目录 I . 贝叶斯分类器 II . 贝叶斯推断 ( 逆向概率 ) III . 贝叶斯推断应用场景 ( 垃圾邮件过滤 ) IV . 贝叶斯方法由来 V . 贝叶斯方法 VI . 贝叶斯公式 V ...
【转载】贝叶斯决策论
原文链接(http://www.cnblogs.com/elaron/archive/2012/10/29/2745010.html) 1.什么是行为? 但是,有时候,后验概率本身只能说明具有特征x的 ...
机器学习基础（六）：贝叶斯分类（贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法）
6.贝叶斯分类 6.1贝叶斯决策论Bayesian decision theory 概率框架下实施决策的基本方法. 对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和 ...
【贝叶斯分类3】半朴素贝叶斯分类器
文章目录 1. 朴素贝叶斯分类器知识回顾 1.1 类别,特征 1.2 风险,概率 1.3 类条件概率 2. 半朴素贝叶斯分类器学习笔记 2.1 引言 2.2 知识卡片 2.3 半朴素贝叶斯分类器 2. ...
实现贝叶斯分类器_机器学习实战项目-朴素贝叶斯
朴素贝叶斯概述贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类.本章首先介绍贝叶斯分类算法的基础--贝叶斯定理.最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: ...
【贝叶斯分类2】朴素贝叶斯分类器
文章目录 1. 贝叶斯决策论回顾 1.1 分类原理 1.2 贝叶斯分类器 1.3 P(c|x) 1.4 计算公式 1.5 极大似然估计 2. 朴素贝叶斯分类器学习笔记 2.1 引言 2.2 知识卡片 ...
贝叶斯理论在机器学习中的应用
贝叶斯理论应用于机器学习方面产生了多种不同的方法和多个定理,会让人有些混淆.主要有最大后验概率,极大似然估计(MLE),朴素贝叶斯分类器,还有一个最小描述长度准则. 贝叶斯理论是基于概率的理论 ...
机器学习 —— 基础整理（一）贝叶斯决策论；二次判别函数；贝叶斯错误率；生成式模型的参数方法...
本文简单整理了以下内容: (一)贝叶斯决策论:最小错误率决策.最小风险决策:经验风险与结构风险 (二)判别函数:生成式模型:多元高斯密度下的判别函数:线性判别函数LDF.二次判别函数QDF (三)贝叶 ...
朴素贝叶斯模型简单理解
小白一个,如果有问题欢迎大家指正. 朴素贝叶斯法朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.对于给定的训练数据集,首先基于特征条件独立假设学习输入\输出的联合概率分布:然后基于此模型, ...

【贝叶斯分类1】贝叶斯决策论