高斯过程之条件分布(Conditional Distribution)

设X=(X1,X2)∈Rm×n∼N(μ,Σ)X=(X_1,X_2)\in \mathbb{R}^{m\times n}\sim N(\mu,\Sigma)，其中X1∈Rm,X2∈Rn,μ=(μ1,μ2),μ1=E(X1),μ2=E(X2),Σ∈R(m+n)×(m+n)X_1\in \mathbb{R}^m, X_2\in \mathbb{R}^n,\mu=(\mu_1,\mu_2),\mu_1=\mathbb{E}(X_1),\mu_2=\mathbb{E}(X_2),\Sigma\in \mathbb{R}^{(m+n)\times (m+n)}.
这里,

Σ=(Σ11Σ21Σ12Σ22),cov(X1)=Σ11,cov(X2)=Σ22

\Sigma= \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix},cov(X_1)=\Sigma_{11},cov(X_2)=\Sigma_{22}
由此可知， {X1∼N(μ1,Σ11)X2∼N(μ2,Σ22)\left\{\begin{array}{ll} X_1\sim N(\mu_1,\Sigma_{11})\\X_2\sim N(\mu_2,\Sigma_{22}) \end{array}\right.，即联合高斯 ⟹\implies边缘高斯。那么 X2X_2在 X1X_1条件下的条件分布为

fX2|X1(x2|x1)=fX1,X2(x1,x2)fX1(x1)

f_{X_2|X_1}(x_2|x_1)=\frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_1}(x_1)}
注意，这里的 X1,X2,x1,x2X_1,X_2,x_1,x_2都是列向量（随机向量）。为了计算上面这个条件分布，必须知道边缘分布 fX1(x1)f_{X_1}(x_1)和联合分布 fX2|X1(x2|x1)f_{X_2|X_1}(x_2|x_1)，这两个分布的形式如下：

fX1(x1)=C1exp(−12(x1−μ1)TΣ−1(x1−μ1))fX2|X1(x2|x1)=C1,2exp(−12((x1−μ1)T,(x2−μ2)T)(Σ11Σ21Σ12Σ22)−1(x1−μ1x2−μ2))

f_{X_1}(x_1)=C_1exp\left(-\frac{1}{2}(x_1-\mu_1)^T\Sigma^{-1}(x_1-\mu_1)\right)\\ f_{X_2|X_1}(x_2|x_1)=C_{1,2}exp\left(-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1} \begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\right)
要计算联合分布 fX2|X1(x2|x1)f_{X_2|X_1}(x_2|x_1)是一件十分困难的事情，由协方差矩阵为对称矩阵的性质，我们同样可以将其对角化。但是这个对角化不能随便做，因为我们要尽量完整地保留 Σ11\Sigma_{11}，因为这里处理的是在 X1X_1已知的条件下计算条件概率。也就是说，对角化的目标就是对

Σ=(Σ11Σ21Σ12Σ22)

\Sigma= \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}
将 Σ11 \Sigma_{11}完整保留，同时将副对角线化为 0\bf{0}。这里我们采用一种打洞技巧，即：

(Σ11Σ21Σ12Σ22)→(Σ1100something)

\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}\rightarrow \begin{pmatrix}\Sigma_{11} & \mathbf{0} \\\mathbf{0} & something \\ \end{pmatrix}
为达到这个目的，我们先对 Σ\Sigma进行 行变换，

(I−Σ21Σ−1110I)(Σ11Σ21Σ12Σ22)=(Σ110Σ12Σ22−Σ21Σ−111Σ12)

\begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix} \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}= \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\mathbf{0} & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \\ \end{pmatrix}
再对上面的结果进行 列变换

(Σ110Σ12Σ22−Σ21Σ−111Σ12)(I0−Σ−111Σ12I)=(Σ1100Σ22−Σ21Σ−111Σ12)

\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\mathbf{0} & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \\ \end{pmatrix} \begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix}= \begin{pmatrix}\Sigma_{11} & \mathbf{0} \\\mathbf{0} & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \\ \end{pmatrix}
于是，我们可以得到

(I0−Σ−111Σ12I)−1(Σ11Σ21Σ12Σ22)−1(I−Σ21Σ−1110I)−1=(Σ−11100(Σ22−Σ21Σ−111Σ12)−1)

\begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix}^{-1} \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1} \begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix}^{-1}= \begin{pmatrix}\Sigma_{11}^{-1} & \mathbf{0} \\\mathbf{0} &(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}\\ \end{pmatrix}
也就是说

(Σ11Σ21Σ12Σ22)−1=(I0−Σ−111Σ12I)(Σ−11100(Σ22−Σ21Σ−111Σ12)−1)(I−Σ21Σ−1110I)

\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1}= \begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix} \begin{pmatrix}\Sigma_{11}^{-1} & \mathbf{0} \\\mathbf{0} &(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}\\ \end{pmatrix} \begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix}
这时我们就计算出了

fX2|X1(x2|x1)=C1,2exp(−12((x1−μ1)T,(x2−μ2)T)(Σ11Σ21Σ12Σ22)−1(x1−μ1x2−μ2))

f_{X_2|X_1}(x_2|x_1)=C_{1,2}exp\left(-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1}\begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\right)
中的协方差矩阵的逆。此时

−12((x1−μ1)T,(x2−μ2)T)(Σ11Σ21Σ12Σ22)−1(x1−μ1x2−μ2)=−12((x1−μ1)T,(x2−μ2)T)(I0−Σ−111Σ12I)(Σ−11100(Σ22−Σ21Σ−111Σ12)−1)(I−Σ21Σ−1110I)(x1−μ1x2−μ2)=−12(x1−μ1)TΣ−111(x1−μ1)−12(x2−μ2−Σ21Σ−111(x1−μ1))T(Σ22−Σ21Σ−111Σ12)−1(x2−μ2−Σ21Σ−111(x1−μ1))

\begin{array}{ll} &-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1} \begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &=-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix} \begin{pmatrix}\Sigma_{11}^{-1} & \mathbf{0} \\\mathbf{0} &(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}\\ \end{pmatrix} \begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix} \begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &=-\frac{1}{2}(x_1-\mu_1)^T\Sigma_{11}^{-1}(x_1-\mu_1)-\frac{1}{2}\left(x_2-\mu_2-\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)\right)^T\left(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\right)^{-1}\left(x_2-\mu_2-\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)\right) \end{array}\\
现在我们可以计算 X2X_2的条件期望， μX2|X1=E(X2|X1)=μ2+Σ21Σ−111(x1−μ1)\mu_{X_2|X_1}=\mathbb{E}(X_2|X_1)=\mu_2+\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)，其中 μ2\mu_2是先验期望。为方便观察其物理含义，可以在低维情况下进行直观理解。假如随机变量 X1,X2X_1,X_2均为一维随机变量，则

μX2|X1=μ2+σ12σ11(x1−μ1)

\mu_{X_2|X_1}=\mu_2+\frac{\sigma_{12}}{\sigma_{11}}(x_1-\mu_1)
这个式子中， μ2\mu_2是先验期望， σ12\sigma_{12}是互相关， σ11\sigma_{11}是归一化因子，也就是说，互相关越大， X1X_1所能提供的新信息越值得信任！

高斯过程之条件分布(Conditional Distribution)相关推荐

【概率论】3-6:条件分布(Conditional Distributions Part I）
title: [概率论]3-6:条件分布(Conditional Distributions Part I) categories: Mathematic Probability keywords: ...
【概率论】3-6:条件分布(Conditional Distributions Part II）
原文地址1:https://www.face2ai.com/Math-Probability-3-6-Conditional-Distributions-P2转载请标明出处 Abstract: 本文介 ...
infer.net 入门2 用一个侦探故事来讲解，通俗易懂
The results look OK, but how do you know that you aren't missing something. Would a more sophisticat ...
概率论与数理统计(Probability Statistics I)
Table of Contents 概率论的基本概念(The Basic Concept of Probability Theory) 随机变量及其分布(Random Variable and Its ...
【论文阅读】JDA（joint distribution adaptation)/2013初稿
JDA(joint distribution adaptation)/2013 文章目录 **JDA(joint distribution adaptation)/2013** Abstract 1. ...
【概率论】4-7:条件期望(Conditional Expectation)
原文地址1:https://www.face2ai.com/Math-Probability-4-7-Conditional-Expectation转载请标明出处 Abstract: 本文介绍期望的条 ...
【迁移学习】JDA（Joint Distribution adaptation ）小结
JDA(Joint Distribution adaptation )一种联合分布自适应的方法. 问题描述: 迁移学习是一门利用源域知识来提升目标域知识的学科(这里说的比较笼统),JDA是一种即考虑两 ...
高斯过程是什么？从视觉上理解机器学习中的高斯过程——Gaussian Process
--如何将一组小型构建块转变为解决回归问题的灵活的工具. 目录 Introduction 简介 Multivariate Gaussian distributions 多元高斯分布 Marginali ...
Chapter 8 (Bayesian Statistical Inference): Bayesian Inference and the Posterior Distribution
本文为 IntroductionIntroductionIntroduction tototo ProbabilityProbabilityProbability 的读书笔记目录 Statistic ...

高斯过程之条件分布(Conditional Distribution)

高斯过程之条件分布(Conditional Distribution)

高斯过程之条件分布(Conditional Distribution)相关推荐

最新文章

热门文章