高斯过程之条件分布(Conditional Distribution)

设X=(X1,X2)∈Rm×n∼N(μ,Σ)X=(X_1,X_2)\in \mathbb{R}^{m\times n}\sim N(\mu,\Sigma),其中X1∈Rm,X2∈Rn,μ=(μ1,μ2),μ1=E(X1),μ2=E(X2),Σ∈R(m+n)×(m+n)X_1\in \mathbb{R}^m, X_2\in \mathbb{R}^n,\mu=(\mu_1,\mu_2),\mu_1=\mathbb{E}(X_1),\mu_2=\mathbb{E}(X_2),\Sigma\in \mathbb{R}^{(m+n)\times (m+n)}.
这里,

Σ=(Σ11Σ21Σ12Σ22),cov(X1)=Σ11,cov(X2)=Σ22

\Sigma= \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix},cov(X_1)=\Sigma_{11},cov(X_2)=\Sigma_{22}
由此可知, {X1∼N(μ1,Σ11)X2∼N(μ2,Σ22)\left\{\begin{array}{ll} X_1\sim N(\mu_1,\Sigma_{11})\\X_2\sim N(\mu_2,\Sigma_{22}) \end{array}\right.,即联合高斯 ⟹\implies边缘高斯。那么 X2X_2在 X1X_1条件下的条件分布为

fX2|X1(x2|x1)=fX1,X2(x1,x2)fX1(x1)

f_{X_2|X_1}(x_2|x_1)=\frac{f_{X_1,X_2}(x_1,x_2)}{f_{X_1}(x_1)}
注意,这里的 X1,X2,x1,x2X_1,X_2,x_1,x_2都是列向量(随机向量)。为了计算上面这个条件分布,必须知道边缘分布 fX1(x1)f_{X_1}(x_1)和联合分布 fX2|X1(x2|x1)f_{X_2|X_1}(x_2|x_1),这两个分布的形式如下:

fX1(x1)=C1exp(−12(x1−μ1)TΣ−1(x1−μ1))fX2|X1(x2|x1)=C1,2exp(−12((x1−μ1)T,(x2−μ2)T)(Σ11Σ21Σ12Σ22)−1(x1−μ1x2−μ2))

f_{X_1}(x_1)=C_1exp\left(-\frac{1}{2}(x_1-\mu_1)^T\Sigma^{-1}(x_1-\mu_1)\right)\\ f_{X_2|X_1}(x_2|x_1)=C_{1,2}exp\left(-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1} \begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\right)
要计算联合分布 fX2|X1(x2|x1)f_{X_2|X_1}(x_2|x_1)是一件十分困难的事情,由协方差矩阵为对称矩阵的性质,我们同样可以将其对角化。但是这个对角化不能随便做,因为我们要尽量完整地保留 Σ11\Sigma_{11},因为这里处理的是在 X1X_1已知的条件下计算条件概率。也就是说,对角化的目标就是对

Σ=(Σ11Σ21Σ12Σ22)

\Sigma= \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}
将 Σ11 \Sigma_{11}完整保留,同时将副对角线化为 0\bf{0}。这里我们采用一种 打洞技巧,即:

(Σ11Σ21Σ12Σ22)→(Σ1100something)

\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}\rightarrow \begin{pmatrix}\Sigma_{11} & \mathbf{0} \\\mathbf{0} & something \\ \end{pmatrix}
为达到这个目的,我们先对 Σ\Sigma进行 行变换

(I−Σ21Σ−1110I)(Σ11Σ21Σ12Σ22)=(Σ110Σ12Σ22−Σ21Σ−111Σ12)

\begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix} \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}= \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\mathbf{0} & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \\ \end{pmatrix}
再对上面的结果进行 列变换

(Σ110Σ12Σ22−Σ21Σ−111Σ12)(I0−Σ−111Σ12I)=(Σ1100Σ22−Σ21Σ−111Σ12)

\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\mathbf{0} & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \\ \end{pmatrix} \begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix}= \begin{pmatrix}\Sigma_{11} & \mathbf{0} \\\mathbf{0} & \Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \\ \end{pmatrix}
于是,我们可以得到

(I0−Σ−111Σ12I)−1(Σ11Σ21Σ12Σ22)−1(I−Σ21Σ−1110I)−1=(Σ−11100(Σ22−Σ21Σ−111Σ12)−1)

\begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix}^{-1} \begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1} \begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix}^{-1}= \begin{pmatrix}\Sigma_{11}^{-1} & \mathbf{0} \\\mathbf{0} &(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}\\ \end{pmatrix}
也就是说

(Σ11Σ21Σ12Σ22)−1=(I0−Σ−111Σ12I)(Σ−11100(Σ22−Σ21Σ−111Σ12)−1)(I−Σ21Σ−1110I)

\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1}= \begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix} \begin{pmatrix}\Sigma_{11}^{-1} & \mathbf{0} \\\mathbf{0} &(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}\\ \end{pmatrix} \begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix}
这时我们就计算出了

fX2|X1(x2|x1)=C1,2exp(−12((x1−μ1)T,(x2−μ2)T)(Σ11Σ21Σ12Σ22)−1(x1−μ1x2−μ2))

f_{X_2|X_1}(x_2|x_1)=C_{1,2}exp\left(-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1}\begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\right)
中的协方差矩阵的逆。此时

−12((x1−μ1)T,(x2−μ2)T)(Σ11Σ21Σ12Σ22)−1(x1−μ1x2−μ2)=−12((x1−μ1)T,(x2−μ2)T)(I0−Σ−111Σ12I)(Σ−11100(Σ22−Σ21Σ−111Σ12)−1)(I−Σ21Σ−1110I)(x1−μ1x2−μ2)=−12(x1−μ1)TΣ−111(x1−μ1)−12(x2−μ2−Σ21Σ−111(x1−μ1))T(Σ22−Σ21Σ−111Σ12)−1(x2−μ2−Σ21Σ−111(x1−μ1))

\begin{array}{ll} &-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}\Sigma_{11} & \Sigma_{12} \\\Sigma_{21} & \Sigma_{22} \\ \end{pmatrix}^{-1} \begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &=-\frac{1}{2}\left((x_1-\mu_1)^T,(x_2-\mu_2)^T\right)\begin{pmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12}\\\mathbf{0} & I \end{pmatrix} \begin{pmatrix}\Sigma_{11}^{-1} & \mathbf{0} \\\mathbf{0} &(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12})^{-1}\\ \end{pmatrix} \begin{pmatrix}I & \mathbf{0} \\-\Sigma_{21}\Sigma_{11}^{-1} & I \\ \end{pmatrix} \begin{pmatrix}x_1-\mu_1\\x_2-\mu_2 \end{pmatrix}\\ &=-\frac{1}{2}(x_1-\mu_1)^T\Sigma_{11}^{-1}(x_1-\mu_1)-\frac{1}{2}\left(x_2-\mu_2-\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)\right)^T\left(\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\right)^{-1}\left(x_2-\mu_2-\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)\right) \end{array}\\
现在我们可以计算 X2X_2的条件期望, μX2|X1=E(X2|X1)=μ2+Σ21Σ−111(x1−μ1)\mu_{X_2|X_1}=\mathbb{E}(X_2|X_1)=\mu_2+\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1),其中 μ2\mu_2是先验期望。为方便观察其物理含义,可以在低维情况下进行直观理解。假如随机变量 X1,X2X_1,X_2均为一维随机变量,则

μX2|X1=μ2+σ12σ11(x1−μ1)

\mu_{X_2|X_1}=\mu_2+\frac{\sigma_{12}}{\sigma_{11}}(x_1-\mu_1)
这个式子中, μ2\mu_2是先验期望, σ12\sigma_{12}是互相关, σ11\sigma_{11}是归一化因子,也就是说,互相关越大, X1X_1所能提供的新信息越值得信任!

高斯过程之条件分布(Conditional Distribution)相关推荐

  1. 【概率论】3-6:条件分布(Conditional Distributions Part I)

    title: [概率论]3-6:条件分布(Conditional Distributions Part I) categories: Mathematic Probability keywords: ...

  2. 【概率论】3-6:条件分布(Conditional Distributions Part II)

    原文地址1:https://www.face2ai.com/Math-Probability-3-6-Conditional-Distributions-P2转载请标明出处 Abstract: 本文介 ...

  3. infer.net 入门2 用一个侦探故事来讲解,通俗易懂

    The results look OK, but how do you know that you aren't missing something. Would a more sophisticat ...

  4. 概率论与数理统计(Probability Statistics I)

    Table of Contents 概率论的基本概念(The Basic Concept of Probability Theory) 随机变量及其分布(Random Variable and Its ...

  5. 【论文阅读】JDA(joint distribution adaptation)/2013初稿

    JDA(joint distribution adaptation)/2013 文章目录 **JDA(joint distribution adaptation)/2013** Abstract 1. ...

  6. 【概率论】4-7:条件期望(Conditional Expectation)

    原文地址1:https://www.face2ai.com/Math-Probability-4-7-Conditional-Expectation转载请标明出处 Abstract: 本文介绍期望的条 ...

  7. 【迁移学习】JDA(Joint Distribution adaptation )小结

    JDA(Joint Distribution adaptation )一种联合分布自适应的方法. 问题描述: 迁移学习是一门利用源域知识来提升目标域知识的学科(这里说的比较笼统),JDA是一种即考虑两 ...

  8. 高斯过程是什么?从视觉上理解机器学习中的高斯过程——Gaussian Process

    --如何将一组小型构建块转变为解决回归问题的灵活的工具. 目录 Introduction 简介 Multivariate Gaussian distributions 多元高斯分布 Marginali ...

  9. Chapter 8 (Bayesian Statistical Inference): Bayesian Inference and the Posterior Distribution

    本文为 IntroductionIntroductionIntroduction tototo ProbabilityProbabilityProbability 的读书笔记 目录 Statistic ...

最新文章

  1. 深度学习运行python文件,出现跨路径搜索其他module,怎么解决?
  2. 烂片《信条》?有多少人假装看懂了?
  3. POJ 3126 Prime Path BFS搜索
  4. [cpp] 字符数组,字符指针,sizeof,strlen总结
  5. 被忽略的知识点——switch语句
  6. C# Find() 与 FindAll()方法的使用
  7. 使用图形芯片加速电子自动化设计应用程序
  8. 【HDOJ7059】Counting Stars(线段树,区间加,乘,标记)
  9. mybatis中resultMap的几种用法
  10. CCS错误解决:#10247-D null: creating output section “ramfuncs“ without a SECTIONS specification
  11. 解除excel打开密码
  12. openSUSE Tumbleweed 连接 Canon LBP2900 打印机
  13. 前端学习从入门到高级全程记录之31(JavaScript高级3)
  14. Color Banding的个人记录
  15. 【C语言练习——打印空心上三角及其变形】
  16. tpc-c 测试方案
  17. Qt Designer+PyQt5 控件使用经验(不定时随缘更新)
  18. 001-查看ts版本、安装、卸载
  19. 实验3-1 求一元二次方程的根 (20分)
  20. 怎么还原计算机字体库,如何在XP系统中恢复字库文件?WinXp系统恢复字库文件图文教程...

热门文章

  1. Windows Live ID Delegated Authentication
  2. Linux Shell 编程学习笔记(1)
  3. 禁止viewpager左右滑动
  4. 贪心---圣诞老人的礼物
  5. mysql case when then用法
  6. java编程实现素数环_回溯法解决素数环
  7. 北京大兴国际机场高速公路全线贯通
  8. ChatGPT的历史和发展过程是怎样的?
  9. Nature:刘清华团队揭示调控睡眠时间的关键分子通路
  10. 马化腾成功创业:在不确定中等待未来