统计学习及监督学习概论

  • 第一节 统计学习
  • 第二节 统计学习的分类
    • 基本分类
    • 按模型分类
  • 第三节 统计学习方法三要素
    • 1. 模型
    • 2. 策略
      • 1. 损失函数和风险函数
      • 2. 经验风险最小化与结构风险最小化
    • 3.算法
  • 第四节 模型评估与模型选择
    • 训练误差与测试误差
    • 过拟合和模型选择
  • 第五节 正则化与交叉验证
    • 正则化
    • 交叉验证
  • 第六节 泛化能力
    • 泛化误差
    • 泛化误差上界
  • 第七节 生成模型与判别模型
  • 第八节 监督学习应用
    • RoC曲线和PR曲线

第一节 统计学习

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。

统计学习研究的对象是数据。

统计学习目的是对数据进行预测与分析。

统计学习的方法是基于数据构建概率统计模型从而对数据进行预测与分析。
统计学习由监督学习(supervised learning)、无监督学习(unsupvised learning)和强化学习(reinforcement learning)等组成。

统计学习三要素:模型(model)、策略(strategy)和算法(algorithm)。

实现统计学习步骤:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则。即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优的模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

第二节 统计学习的分类

基本分类

  1. 监督学习
    监督学习是指在标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

  2. 无监督学习
    无监督学习是指在无标注数据中学习预测模型的机器学习问题。无标注数据是自然界中得到的数据,预测模型表示数据的类别、转换和概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

  3. 强化学习
    强化学习是指智能系统与在环境的连续互动中学习的最优行为策略的机器学习问题问题。假设智能系统与环境的互动基于马尔科夫决策过程,智能系统能观测到的是与环境互动得到的数据预测。强化学习的本质是学习最优的序贯决策。

按模型分类

  1. 概率模型与非概率模型
    在监督学习中,概率模型取条件概率分布形式 P ( y ∣ x ) P(y|x) P(y∣x),非概率模型取函数形式 y = f ( x ) y = f(x) y=f(x) 。在无监督学习中,概率模型是取条件概率分布形式 P ( z ∣ x ) P(z|x) P(z∣x)或 P ( x ∣ z ) P(x|z) P(x∣z) ,非概率模型取函数形式 z = g ( x ) z = g(x) z=g(x) 。在监督学习中,概率模型是生成模型,非概率模型是判别模型。

  2. 线性模型与非线性模型

  3. 参数模型与非参数模型

第三节 统计学习方法三要素

1. 模型

统计学习首先要考虑的就是学习什么样的模型。在监督学习过程中,模型就是所有学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。
假设空间用 F = { f ∣ Y = f ( X ) } . (1.1) \tag{1.1}\mathscr{F} = \left\{f|Y = f(X)\right\}. F={f∣Y=f(X)}.(1.1)
其中, X X X和 Y Y Y是定义在输入空间 X \mathscr{X} X 和输出空间 Y \mathscr{Y} Y 上的变量 。这时 F \mathscr{F} F 通常是由一个参数向量决定的函数簇:
F = { f ∣ Y = f θ ( X ) , θ ∈ R n } . (1.2) \tag{1.2}\mathscr{F} = \left\{f|Y = f_{\theta}(X), \theta \in \mathbf{R}^n\right\}. F={f∣Y=fθ​(X),θ∈Rn}.(1.2)
参数向量 θ \theta θ 取决于 n n n 维欧式空间 R n \mathbf{R}^n Rn,称为参数空间。

假设空间也可以定义为条件概率的集合:
F = { P ∣ P ( Y ∣ X ) } . (1.4) \tag{1.4}\mathscr{F} = \left\{P|P(Y|X)\right\}. F={P∣P(Y∣X)}.(1.4)
其中, X X X和和 Y Y Y是定义在输入空间 X \mathscr{X} X 和输出空间 Y \mathscr{Y} Y 上的随机变量。这时 F \mathscr{F} F 通常是由一个参数向量决定的条件概率分布簇:
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } . (1.5) \tag{1.5}\mathscr{F} = \left\{P|P_{\theta}(Y|X), \theta\in\mathbf{R}^n\right\}. F={P∣Pθ​(Y∣X),θ∈Rn}.(1.5)
参数向量 θ \theta θ取决于 n n n 维欧式空间 R n \mathbf{R}^n Rn,也称为参数空间。

2. 策略

1. 损失函数和风险函数

损失函数是 f ( X ) f(X) f(X)和 Y Y Y的非负实值函数,记住 L ( Y , f ( X ) ) . L(Y, f(X)). L(Y,f(X)).

统计学习常用的损失函数有以下几种:

  1. 0-1损失函数
    L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) (1.6) \tag{1.6}L(Y, f(X)) = \begin{cases} 1, \ Y\neq f(X) \\[3ex] 0, \ Y = f(X) \end{cases} L(Y,f(X))=⎩⎪⎨⎪⎧​1, Y​=f(X)0, Y=f(X)​(1.6)
  2. 平方损失函数
    L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 (1.7) \tag{1.7}L(Y, f(X)) = (Y-f(X))^2 L(Y,f(X))=(Y−f(X))2(1.7)
  3. 绝对损失函数
    L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ (1.8) \tag{1.8}L(Y, f(X)) = |Y-f(X)| L(Y,f(X))=∣Y−f(X)∣(1.8)
  4. 对数损失函数或对数似然损失函数
    L ( Y , P ( Y ∣ X ) ) = − log ⁡ P ( Y ∣ X ) (1.9) \tag{1.9}L(Y, P(Y|X)) = -\log P(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)(1.9)
    损失函数值越小,模型越好。由于模型的输入、输出 ( X , Y ) (X, Y) (X,Y) 是随机变量,遵循联合分布 P ( X , Y ) P(X, Y) P(X,Y) ,所以损失函数的期望是:
    R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y (1.10) \tag{1.10} \begin{aligned} R_{exp}(f) &= E_{P}\left[ L(Y, f(X))\right]\\ &=\int_{\mathscr{X}\times\mathscr{Y}}L(y, f(x))P(x,y)dxdy \end{aligned} Rexp​(f)​=EP​[L(Y,f(X))]=∫X×Y​L(y,f(x))P(x,y)dxdy​(1.10)
    这是理论上模型 f ( X ) f(X) f(X) 关于联合分布 P ( X , Y ) P(X,Y) P(X,Y) 的平均意义下的损失,称为风险函数或期望损失。

学习的目标就是选择期望风险最小的模型。由于联合分布 P ( X , Y ) P(X, Y) P(X,Y) 是未知的·, R e x p ( f ) R_{exp}(f) Rexp​(f) 不能直接计算。实际上,如果知道联合分布 P ( X , Y ) P(X,Y) P(X,Y) 也就不需要学习了,直接求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 即可。正是因为不知道联合概率分布,所以我们才需要设计模型去学习。这样一来,一方面期望风险最小最小模型要用到联合分布,另一方面联合分布又是未知的,所以监督学习就成为了一个病态问题。

给定一个训练数据集
T = { ( x 1 , y 1 ) , ⋯ , ( x N , y N ) } (1.11) \tag{1.11}T = \left\{(x_1, y_1), \cdots, (x_N, y_N)\right\} T={(x1​,y1​),⋯,(xN​,yN​)}(1.11)
模型 f ( X ) f(X) f(X) 关于训练数据集的平均损失称为经验风险或经验损失,记作 R e m p R_{emp} Remp​:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) \kern{3cm} Remp​(f)=N1​i=1∑N​L(yi​,f(xi​))

期望风险 R e x p ( f ) R_{exp}(f) Rexp​(f)是模型关于联合分布的期望损失,经验风险 R e m p ( f ) R_{emp}(f) Remp​(f) 是模型关于训练样本集的平均损失。根据大数定律,当样本容量 N N N 区域无穷的时候,经验风险函数 R e m p ( f ) R_{emp}(f) Remp​(f) 趋于期望风险 R e x p ( f ) R_{exp}(f) Rexp​(f) 。

2. 经验风险最小化与结构风险最小化

经验风险最小化
在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式(1.11)就是确定的。经验风险最小化的策略认为,经验风险最小的模型就是最优的模型。于是:
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) (1.12) \tag{1.12}\min_{f \in \mathscr{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) f∈Fmin​N1​i=1∑N​L(yi​,f(xi​))(1.12)
当样本足够大时,经验风险最小化确实能保证有很好的学习效果。但是,当样本容量很小时,经验风险函数最小化学习的效果就不一定很好,会产生过拟合现象。

结构风险最小化
结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。在假设空间、损失函数确定情况下,结构风险定义为:
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) (1.13) \tag{1.13}R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i))+\lambda J(f) Rsrm​(f)=N1​i=1∑N​L(yi​,f(xi​))+λJ(f)(1.13)
其中 J ( f ) J(f) J(f) 为模型的复杂度,是定义在假设空间 F \mathscr{F} F 上的泛函。模型 f f f越复杂,则复杂度 J ( f ) J(f) J(f) 就越大。

结构风险最小化认为结构风险最小化的模型是最优的模型。所以求最优的模型就是等价于最优化问题:
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) (1.14) \tag{1.14}\min_{f\in \mathscr{F}}\frac{1}{N} \sum_{i=1}^{N}L(y_i, f(x_i)) + \lambda J(f) f∈Fmin​N1​i=1∑N​L(yi​,f(xi​))+λJ(f)(1.14)

3.算法

算法是指学习模型的具体计算方法。

第四节 模型评估与模型选择

训练误差与测试误差

当损失函数给定时,基于损失函数的模型的训练误差与模型的测试误差就自然成为学习方法评估的标准。
注意,统计学习方法具体采用的损失函数未必就是评估时使用的损失函数,让两者统一是比较理想的。

假设学习到的模型是 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^​(X) ,训练误差是模型 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^​(X) 关于训练数据集的平均损失:
R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) ( 1.18 ) (1.15) \tag{1.15}R_{emp}(\hat{f}) = \frac{1}{N}\sum_{i=1}^{N}L(y_i, \hat{f}(x_i))(1.18) Remp​(f^​)=N1​i=1∑N​L(yi​,f^​(xi​))(1.18)(1.15)
其中 N N N 是训练样本的容量。

测试误差是模型 Y = f ^ ( X ) Y=\hat{f}(X) Y=f^​(X) 关于测试数据集的平均损失:
e t e s t ( f ^ ) = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) (1.16) \tag{1.16}e_{test}(\hat{f}) = \frac{1}{N^{'}}\sum_{i=1}^{N^{'}}L(y_i, \hat{f}(x_i)) etest​(f^​)=N′1​i=1∑N′​L(yi​,f^​(xi​))(1.16)
其中 N ′ N^{'} N′ 是测试样本的容量。

过拟合和模型选择

当我们可以选择的模型有多个时,我们就要考虑我们所选择的模型与数据实际的“真”模型应该尽可能的接近,但是如果一味追求提高对训练数据集的预测能力,则所选择的模型有可能复杂度很高,这种现象称为过拟合。
过拟合(over-fitting)是指在学习时所选择的模型所包含的参数过多,以致出现这一模型对已知数据预测很好,但对于未知数据预测的很差的现象。

第五节 正则化与交叉验证

正则化

正则化是结构风险最小化策略的实现,是在经验风险上加了一个正则项。
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) (1.17) \tag{1.17}\min_{f\in \mathscr{F}}\frac{1}{N} \sum_{i=1}^{N}L(y_i, f(x_i)) + \lambda J(f) f∈Fmin​N1​i=1∑N​L(yi​,f(xi​))+λJ(f)(1.17)
其中,第一项是经验风险,第二项是正则化项, λ ≥ 0 \lambda \geq 0 λ≥0 是调整两者之间关系的系数。

正则化项可以取不同的形式。例如在回归问题中,损失函数是平方损失,正则化项是参数向量的2范数:
L ( w ) = 1 N ∑ i = 1 N ( y i − f ( x i ; w ) ) 2 + λ ∣ ∣ w ∣ ∣ 2 (1.18) \tag{1.18}L(w) = \frac{1}{N} \sum_{i=1}^{N}(y_i - f(x_i;w))^2 + \lambda ||w||^2 L(w)=N1​i=1∑N​(yi​−f(xi​;w))2+λ∣∣w∣∣2(1.18)
奥卡姆剃刀原理:在所有可能选择的模型当中,能够很好地解释已知数据并且十分简单才是最好的模型。

从贝叶斯的角度考虑,正则化项对应于模型的先验概率。可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。

交叉验证

  1. 简单交叉验证
    随机将已知数据分为两部分。
  2. S S S 折交叉验证
    首先随机地将已知数据切分为 S S S 个互不相交、大小相同的子集;然后利用 S − 1 S-1 S−1 个子集的数据训练模型,利用剩下的子集测试模型。将这一过程对可能的 S S S 种选择重复进行;最后选出 S S S 次评测中平均测试误差最小的模型。
  3. 留一交叉验证
    S S S 折交叉验证的特殊情形是 S = N S = N S=N,称为留一交叉验证。在数据不足的情况下, N N N 就是数据容量。

第六节 泛化能力

泛化误差

学习方法的泛化能力是指由该方法学习到的模型对位置数据的预测能力,是学习方法本质上重要性质。
如果学到的模型是 f ^ \hat{f} f^​ ,那么用这个模型对未知数据预测的误差即为泛化能力:
R e x p ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y (1.19) \tag{1.19} \begin{aligned} R_{exp}(\hat{f}) &= E_{P}\left[ L(Y, \hat{f}(X))\right]\\ &=\int_{\mathscr{X}\times\mathscr{Y}}L(y, \hat{f}(x))P(x,y)dxdy \end{aligned} Rexp​(f^​)​=EP​[L(Y,f^​(X))]=∫X×Y​L(y,f^​(x))P(x,y)dxdy​(1.19)

泛化误差上界

泛化误差的概率上界简称为泛化误差上界。

泛化误差上界通常具有下面两种性质:

  1. 它是样本容量的函数,当样本容量增加时,泛化上界趋于0;
  2. 它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

如果考虑二分类问题。已知训练数据为 T = { ( x 1 , y 1 ) , ⋯ , ( x N , y N ) } T = \left\{(x_1, y_1), \cdots, (x_N, y_N)\right\} T={(x1​,y1​),⋯,(xN​,yN​)}
N N N是样本容量, T T T 是从联合概率分布 P ( X , Y ) P(X, Y) P(X,Y) 独立同分布产生, X ∈ R n , Y ∈ 1 , − 1 X\in R^n, Y\in {1, -1} X∈Rn,Y∈1,−1。假设空间是函数的有限集合 F = { f 1 , ⋯ , f d } \mathscr{F} = \{f_1, \cdots, f_d\} F={f1​,⋯,fd​}。设 f f f 是从 F \mathscr{F} F中选取的函数。损失函数是 0-1 损失。关于 f f f 的期望风险和经验风险分别是
R ( f ) = E [ L ( Y , f ( X ) ) ] (1.20) \tag{1.20}R(f) = E[L(Y, f(X))] R(f)=E[L(Y,f(X))](1.20)
R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) (1.21) \tag{1.21}\hat{R}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) R^(f)=N1​i=1∑N​L(yi​,f(xi​))(1.21)
经验风险最小化函数是
f N = arg min ⁡ f ∈ F R ^ ( f ) (1.22) \tag{1.22}f_N = \argmin_{f\in\mathscr{F}}\hat{R}(f) fN​=f∈Fargmin​R^(f)(1.22)
f N f_N fN​依赖于训练数据集的样本容量 N N N 。人们更关心的是 f N f_N fN​ 的泛化能力
R ( f N ) = E [ L ( Y , f N ( X ) ) ] (1.23) \tag{1.23}R(f_N) = E[L(Y, f_N(X))] R(fN​)=E[L(Y,fN​(X))](1.23)
下面讨论从有限集合 F = { f 1 , ⋯ , f d } \mathscr{F} = \left\{f_1, \cdots, f_d\right\} F={f1​,⋯,fd​} 中任意选出函数 f f f 的泛化能力上界。

定理1.1(泛化误差上界)对二分类问题,当假设空间是有限函数集合 F = { f 1 , ⋯ , f d } \mathscr{F} = \left\{f_1, \cdots, f_d\right\} F={f1​,⋯,fd​} 时,对任意一个函数 f ∈ F f \in \mathscr{F} f∈F ,至少以概率 1 − δ , 0 < δ < 1 1-\delta, 0< \delta < 1 1−δ,0<δ<1,以下不等式成立:
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) (1.24) \tag{1.24}R(f) \leq \hat{R}(f) + \varepsilon(d, N, \delta) R(f)≤R^(f)+ε(d,N,δ)(1.24)其中,
ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) (1.25) \tag{1.25}\varepsilon(d, N, \delta) = \sqrt{\frac{1}{2N}(\log d + \log \frac{1}{\delta})} ε(d,N,δ)=2N1​(logd+logδ1​) ​(1.25)

在泛化误差上界中,第一项是训练误差,训练误差越小,泛化误差也越小。第二项 ε ( d , N , δ ) \varepsilon(d, N, \delta) ε(d,N,δ) 是 N N N 的单调递减函数,当 N N N 趋于无穷时趋于0;同时它也是 log ⁡ d \sqrt{\log d} logd ​ 阶的函数,假设空间 F \mathscr{F} F 包含的函数越多,其值越大。

第七节 生成模型与判别模型

监督学习可以分为生成模型与判别模型。
生成模型是由数据学习联合概率分布 P ( X , Y ) P(X, Y) P(X,Y) ,然后求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型,即生成模型:
P ( Y ∣ X ) = P ( X , Y ) P ( X ) (1.30) \tag{1.30}P(Y|X) = \frac{P(X, Y)}{P(X)} P(Y∣X)=P(X)P(X,Y)​(1.30)
这样的方法称为生成方法,是因为模型表示了给定输入 X X X 产生 Y Y Y 的生成关系。典型的生成模型由朴素贝叶斯和隐马尔科夫模型。

判别方法是由数据直接学习决策函数 f ( X ) f(X) f(X) 或者条件概率模型 P ( Y ∣ X ) P(Y|X) P(Y∣X) 作为预测的模型,即判别模型。判别模型关心的是对给定的输入 X X X ,应该预测什么样的输出 Y Y Y 。典型的判别模型包括: k k k近邻, 感知机,决策树,逻辑斯谛回归模型,最大熵模型,支持向量机,提升方法,条件随机场。

生成方法的特点是:生成方法可以还原出联合概率分布,而判别方法则不可以。生成方法的收敛速度更快,即当样本容量增加时,学到的模型可以更快的收敛于真实模型。

第八节 监督学习应用

对于二分类问题,常用的评价指标是精确率(precision)和召回率(recall)。通常已关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数记做:
TP(true positive)——将正类预测为正类数
FN (false negative)——将正类预测为负类数
FP(false positive)——将负类预测为正类数
TN(true negative)——将负类预测为负类数
精确率定义为:
P = T P T P + F P P = \frac{TP}{TP + FP } P=TP+FPTP​
召回率定义为:
R = T P T P + F N R = \frac{TP}{TP + FN } R=TP+FNTP​
此外,还有 F 1 F_1 F1​值:
2 F 1 = 1 P + 1 R \frac{2}{F_1} = \frac{1}{P} + \frac{1}{R} F1​2​=P1​+R1​
F 1 F_1 F1​值是精确率和召回率的调和均值。当精确率和召回率都高时, F 1 F_1 F1​值也会高。

这里有一篇文章解释了精确率和召回率,可以参考:
如何解释召回率与精确率?

有时候我们对精确率和召回率并不是一视同仁,比如有时候我们更加重视精确率。我们用一个参数 β β β 来度量两者之间的关系。如果 β > 1 β>1 β>1 , 召回率有更大影响,如果 β < 1 β<1 β<1 ,精确率有更大影响。自然,当 β = 1 β=1 β=1 的时候,精确率和召回率影响力相同,和 F 1 F_1 F1​ 形式一样。含有度量参数 β β β 的 F 1 F_1 F1​ 我们记为 F β F_β Fβ​ , 严格的数学定义如下:
F β = ( 1 + β 2 ) ⋅ P ⋅ R β 2 ⋅ P + R F_\beta = \frac{(1+\beta^2)\cdot P\cdot R}{\beta^2\cdot P + R} Fβ​=β2⋅P+R(1+β2)⋅P⋅R​

此外还有灵敏度TPR(true positive rate ),它是所有实际正例中,正确识别的正例比例,它和召回率的表达式没有区别。严格的数学定义如下:
T P R = T P T P + F N TPR = \frac{TP}{TP + FN } TPR=TP+FNTP​

另一个是1-特异度FPR(false positive rate, FPR),它是实际负例中,错误得识别为正例的负例比例。严格的数学定义如下:
F P R = F P F P + T N FPR = \frac{FP}{FP + TN } FPR=FP+TNFP​

RoC曲线和PR曲线

RoC曲线全称为 受试者工作特征曲线 (receiver operating characteristic curve),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。

有了上面精确率, 召回率和特异性的基础,理解RoC曲线和PR曲线就小菜一碟了。

灵敏度TPR为y轴,以特异度FPR为x轴,我们就直接得到了RoC曲线。从FPR和TPR的定义可以理解,TPR越高,FPR越小,我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。如下图左图所示。从几何的角度讲,RoC曲线下方的面积越大越大,则模型越优。所以有时候我们用RoC曲线下的面积,即AUC(Area Under Curve)值来作为算法和模型好坏的标准。

精确率P为y轴,以召回率R为x轴,我们就得到了PR曲线。仍然从精确率和召回率的定义可以理解,精确率越高,召回率越高,我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。如上图右图所示。

使用RoC曲线和PR曲线,我们就能很方便的评估我们的模型的分类能力的优劣了。

参考:
1.李航《统计学习方法》
2.精确率与召回率,RoC曲线与PR曲线

统计学习概论与ROC曲线相关推荐

  1. 影像组学视频学习笔记(15)-ROC曲线及其绘制、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(15)主要介绍: ROC曲线及其绘制 ROC 曲线 ROC = receiver operating characteristic cu ...

  2. 【深度学习笔记】ROC曲线 vs Precision-Recall曲线

    ROC曲线的优势 ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持稳定.在实际的数据集中经常会出现类不平衡现象,而且测试数据中的正负样本的分布也可能随着时间变化.下图 ...

  3. roc曲线spss怎么做_SPSS学习笔记之——ROC曲线

    一.ROC曲线的概念 受试者工作特征曲线(receiver operator characteristic curve, ROC曲线),最初用于评价雷达性能,又称为接收者操作特性曲线.ROC曲线是以真 ...

  4. 【深度学习中模型评价指标汇总(混淆矩阵、recall、precision、F1、AUC面积、ROC曲线、ErrorRate)】

    深度学习中模型好坏的所有评价指标汇总(混淆矩阵.recall.precision.F1score.AUC面积.ROC曲线.ErrorRate) 导航 0.混淆矩阵 1.AUC面积 2.ROC曲线 3. ...

  5. Detection:目标检测常用评价指标的学习总结(IoU、TP、FP、TN、FN、Precision、Recall、F1-score、P-R曲线、AP、mAP、 ROC曲线、TPR、FPR和AUC)

    目录 前言 1. IoU 2. TP.FP.TN.FN 2.1 混淆矩阵 2.2 TP.FP.TN.FN的定义 2.3 TP.FP.TN.FN在目标检测中的对应内容 2.3.1 TP,FP在目标检测中 ...

  6. ROC 曲线/准确率、覆盖率(召回)、命中率、Specificity(负例的覆盖率)

      欢迎关注博主主页,学习python视频资源 sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频教程) https://study.163.com/course/introduction.ht ...

  7. 【性能评估】ROC曲线

    1.混淆矩阵(confusion matrix) 针对预测值和真实值之间的关系,我们可以将样本分为四个部分,分别是: 真正例(True Positive,TP):预测值和真实值都为1 假正例(Fals ...

  8. 入门选手都能理解的ROC曲线与AUC值

    项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.ROC曲线 在信号检测理论中,接收 ...

  9. 深度理解受试者工作特征(ROC)曲线

    目录 1.分类结果混淆矩阵 举例: 2.ROC 2.1.ROC曲线是从阈值选取角度出发来研究学习器泛化性能的有力工具 2.2.ROC曲线 2.3.主要作用: 2.4.优点: 举例1: 举例2: 3.A ...

最新文章

  1. 04-VTK可视化管线(1)
  2. 转:使用 PHP 直接在共享内存中存储数据集
  3. Redis 数据类型之(底层解析)
  4. MySQL数据库备份(INTO OUTFILE)
  5. label自定义的惨痛教训
  6. 风机桨叶故障诊断(三) 识别桨叶——初步构建BP神经网络
  7. 利用.dSYM和.app文件准确定位Crash位置
  8. IoT -- (四) 物联网系统架构介绍
  9. js触发button的点击事件
  10. Unix系统使用的地址索引结构有什么特点?
  11. leetcode python3 简单题58. Length of Last Word
  12. php条件语句中大括号必须,PHP条件,括号需要?
  13. Windows2008计算机设置,Windows Server 2008 R2 个人使用优化设置
  14. 算法/回溯法/8-Queen八皇后问题
  15. 去YY欢聚时代的一次面试经历
  16. 2017.12.5对内网,外网的理解
  17. 普通最小二乘法平面直线回归问题的三种实现(Python)
  18. 过零检测电路原理与作用 可控整流
  19. 3年100亿!苏宁易购与倍科达成重磅战略合作
  20. Linux 挂载nas盘

热门文章

  1. 指纹识别应用开发笔记
  2. 主动噪声控制方向期刊
  3. JavaScript 反混淆的一般套路和技巧[起][承][转][结]
  4. 小本经营如何获得银行贷款?
  5. Matlab仿照Sobel算子实现±45°图像细节检测和图像锐化
  6. 【电脑讲解】电脑D盘不见了怎么恢复
  7. html添加友情链接,Hugo 白话文 | 添加友情链接
  8. 自己写的扒谱助手apk分享(永久0积分免费下载)
  9. 索尼 LT22i 刷机总结
  10. html css动画自动旋转,html – 使这个CSS3动画旋转只旋转一次