深度学习中的最大似然估计简介

统计领域为我们提供了很多工具来实现机器学习目标，不仅可以解决训练集上的任务，还可以泛化。例如参数估计、偏差和方差，对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。

点估计：点估计试图为一些感兴趣的量提供单个”最优”预测。一般地，感兴趣的量可以是单个参数，或是某些参数模型中的一个向量参数，但是也有可能是整个函数。点估计也可以指输入和目标变量之间关系的估计。我们将这种类型的点估计称为函数估计。

函数估计：有时我们会关注函数估计(或函数近似)。这时我们试图从输入向量x预测变量y。我们假设有一个函数f(x)表示y和x之间的近似关系。例如，我们可能假设y=f(x)+ε,其中ε是y中未能从x预测的一部分。在函数估计中，我们感兴趣的是用模型估计去近似f。

偏差：估计的偏差被定义为：

均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。中心极限定理告诉我们均值会接近一个高斯分布，我们可以用标准差计算出真实期望落在选定区间的概率。

权衡偏差和方差以最小化均方误差：偏差和方差度量着估计量的两个不同误差来源。偏差度量着偏离真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。

均方误差(mean squared error, MSE)：

MSE度量着估计和真实参数θ之间平方误差的总体期望偏差。MSE估计包含了偏差和方差。偏差和方差的关系和机器学习容量、欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时，增加容量会增加方差，降低偏差。

一致性：一致性保证了估计量的偏差会随数据样本数目的增多而减少。然而，反过来是不正确的。

考虑一组含有m个样本的数据集X={x⁽¹⁾,…,x^(m)},独立地由未知的真实数据生成分布p_data(x)生成。令p_model(x;θ)是一族由θ确定在相同空间上的概率分布。换言之，p_model(x; θ)将任意输入x映射到实数来估计真实概率p_data(x)。

对θ的最大似然估计被定义为：

最大似然估计最吸引人的地方在于，它被证明当样本数目m→∞时，就收敛率而言是最好的渐进估计。

在合适的条件下，最大似然估计具有一致性，意味着训练样本数目趋向于无穷大时，参数的最大似然估计会收敛到参数的真实值。这些条件是：

(1)、真实分布p_data必须在模型族p_model(•;θ)中。否则，没有估计可以还原p_data.

(2)、真实分布p_data必须刚好对应一个θ值。否则，最大似然估计恢复出真实分布p_data后，也不能决定数据生成过程使用哪个θ。

在统计学中，最大似然估计(Maximum likelihood estimation, MLE)，也称为最大概似估计，是用来估计一个概率模型(概率模型是用来描述不同随机变量之间关系的数学模型，通常情况下刻画了一个或多个随机变量之间的相互非确定性的概率关系)的参数的一种方法。

最大似然估计的原理：给定一个概率分布D，已知其概率密度函数(连续分布)或概率质量函数(离散分布)为f_D,以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个值的采样X₁,X₂,…,X_n，利用f_D计算出概率：P(x₁,x₂,…,x_n)=f_D(x₁,…,x_n|θ)。

但是，我们可能不知道θ的值，尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出θ呢？一个自然的想法是从这个分布中抽出一个具有n个值的采样X₁,X₂,…,X_n，然后用这些采样数据来估计θ。

一旦我们获得X₁,X₂,…,X_n,我们就能求得一个关于θ的估计。最大似然估计会寻找关于θ的最可能的值(即，在所有可能的θ取值中，寻找一个值使这个采样的”可能性”最大化)。

要在数学上实现最大似然估计法，我们首先要定义似然函数：lik(θ)= f_D(x₁,…,x_n|θ)，并且在θ的所有取值上通过令一阶导数等于零，使这个函数取得最大值。这个使可能性最大的θ’值即称为θ的最大似然估计。

注意：这里的似然函数是指x ₁,…,x _n不变时，关于θ的一个函数；最大似然估计函数不一定是惟一的，甚至不一定存在。

以上内容主要摘自：《深度学习中文版》和维基百科

GitHub：https://github.com/fengbingchun/NN_Test

深度学习中的最大似然估计简介相关推荐

深度学习中的归一化方法简介（BN、LN、IN、GN）
文章目录 1. 协方差偏移 1.1 协方差偏移的概念 1.2 协方差偏移的影响 2. 归一化的通用框架与基本思想 3. 常见的归一化方法 3.1 Batch Nomalization 3.1.1 什么 ...
深度学习中的卷积网络简介
卷积网络(convolutional network)也叫做卷积神经网络(convolutional neural network, CNN),是一种专门用来处理具有类似网格结构的数据的神经网络.例如 ...
AI圣经-深度学习-读书笔记（七）-深度学习中的正则化
深度学习中的正则化 0 简介机器学习中的一个核心问题是设计不仅在训练数据上表现好,而且能在新输入上泛化好的算法.采用显式减少测试误差(可能会增加训练误差)的策略称为正则化. 在深度学习的背景下,大多 ...
Dataset：机器学习和深度学习中对数据集进行高级绘图(数据集可视化，箱线图等)的简介、应用之详细攻略——daidingdaiding
Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介.应用之详细攻略--daidingdaiding 目录箱线图箱线图箱线图(box plots):这些图显示 ...
ML之模型文件：机器学习、深度学习中常见的模型文件(.h5、.keras)简介、h5模型文件下载集锦、使用方法之详细攻略
ML之模型文件:机器学习.深度学习中常见的模型文件(.h5..keras)简介.h5模型文件下载集锦.使用方法之详细攻略目录 ML/DL中常见的模型文件(.h5..keras)简介及其使用方法一. ...
DL之AF：机器学习/深度学习中常用的激活函数(sigmoid、softmax等)简介、应用、计算图实现、代码实现详细攻略
DL之AF:机器学习/深度学习中常用的激活函数(sigmoid.softmax等)简介.应用.计算图实现.代码实现详细攻略目录激活函数(Activation functions)相关配图各个激活 ...
深度学习中的优化简介
深度学习算法在许多情况下都涉及到优化. 1. 学习和纯优化有什么不同在大多数机器学习问题中,我们关注某些性能度量P,其定义于测试集上并且可能是不可解的.因此,我们只是间接地优化P.我们系统通过降低代 ...
深度学习中神经网络模型压缩的解决办法（ flask API、onnx、ncnn在嵌入式、流媒体端口应用）
深度学习中神经网络模型压缩的解决办法( flask API.onnx.ncnn在嵌入式.流媒体端口应用) 1 开发环境的创建 1.1 Conda简介 1.2 miniconda 1.3 conda操作 ...
【入门向】光流法（optical flow）基本原理+深度学习中的应用【FlowNet】【RAFT】
目录 1. 理论背景 1.1 光流 1.2 光流场 2. 基本原理 2.1 假设条件 2.2 约束方程 3. 光流估计方法 3.1 思路概述 3.2 优缺点对比 4. 稠密光流和稀疏光流 4.1 稠密 ...

深度学习中的最大似然估计简介

深度学习中的最大似然估计简介相关推荐

最新文章

热门文章