Dirichlet Process-非参数贝叶斯（1）

狄利克雷过程（dirichlet process ）是目前变参数学习（non parameter）非常流行的一个理论。

随机过程可以看做一个可数无穷多的随机向量的集合（astochastic process is an indexed collection of random variables,where the index set can be inﬁnite）

dirchlet process由两个参数（/alpha，基本分布H）定义，生成无限数量的随机变量，

这些随机变量的联合分布是dirchlet distribution（有限维）在无限维上的推广，同dir和beta分布一样，可以用作无限维multinomial的共轭先验

（注意，虽然Dirichlet process和无限维multinomial理论上是“无限维”，但是在有限个可见训练/测试样本中，其表现为有限维，

也就是说，我们不必预先指定类别数量K，而是，当新类别的样本出现时，将自动被打上新标签，这是non parametric的基础

另有一种算法叫Bayesian finite mixture model，也能从样本中推断出类别数，但是这模型的类别数有一个预设上界K，而DPMM(Dirichlet Process mixture model)的类别数没有上界）

1.Dirichlet Process 的定义

假设存在在度量空间\Theta上的分布H，和一个参数\alpha，

G是在度量空间\Theta上的一个分布（意思是对任意theta的子集A，G（A）是一个函数，使得0<G（A）<=1, 且具备可加性，且G（\theta）=1）

如果对于度量空间\Theta的任意一个可数划分（可以是有限或者无限的）T1, T2,...,Tn，都有下列式子成立：

这里Dir是dirichlet 分布，我们称G是满足Dirichlet process的。H也成为base distribution。

举个简单的例子，

在CRP中，Ti可以看成是第i张桌子，G（Ti）就是第i张桌子的概率

（G(1),G（2），...,G(K)）~Dirichlet(alpha/K,alpha/K,....alpha/K)，

在K趋于无穷大时候的情况

以下为DP的性质。

这个定义是1973年Ferguson最早提出的，比较晦涩。有三种构造性方法：Polya urm model，chinese restaurant proces，Stick-breaking construction

基本的构造是这样：

2. Polya urm model

假设存在可数无限多种颜色的球，一个空的urn

1. 第一次，按照H分布选定一个颜色，取出对应颜色的球放入urn中

2. 后续，有两种选球法，按其中之一选定一个颜色，取出对应颜色的一个球放入urn中

i）按均匀分布从urn中取出一个球，按该球的颜色取

ii）按H分布选定一个颜色

则有

也就是

其中Xi表示第i个摸出来的球的颜色；

在chinese restaurant process中，Xi表示第i个客人选中的桌子，

可以看出，polya urn model和chinese restaurant process都满足exchangeable性质，因此可以表示为上面的（1）式。

此时随机元素G就是dirichlet process。

（但是我不知道（6）和（4）如何等价？？？在http://www.iro.umontreal.ca/~lisa/seminaires/31-10-2006.pdf看到一个解释是在K->无穷时，

3.Stick-breaking construction

可以看出，G的生成方法是，先按照H分布抽取出无限样本点，然后/pai_k重新赋权。这是一个取值无限的离散分布（取值点数量是可数无穷，而如果H是实数上的分布，取值点数量是阿列夫1哦）,每次抽取，可以抽取出不同的/beta,H,生成不同的G。

可以证明G是dirichlet process。

（stick-break 来源是/pai数列，这有点象每次从长度为1 的木棍上折下一定的长度，E（/beta）=1/(1+/alpha）,当/alpha较小，则开始几个木棍会很长，也就是说，如果用它作为聚类的prior，将会倾向于分成更少更大的类)

Stick-breaking 和之前CRP和urn的关系是

Imagine running either the Chinese Restaurant Process or the Polya Urn Model without stop. For each group i , this gives a proportion wi of points that fall into group i .So instead of running the CRP or Polya Urn model to figure out these proportions, can we simply generate them directly?This is exactly what the Stick-Breaking Process does。

Thus, the Stick-Breaking process is simply the CRP or Polya Urn Model from a different point of view. For example, assigning customers to table 1 according to the Chinese Restaurant Process is equivalent to assigning customers to table 1 with probability w1 .

===============

Dirichlet process is one way to specify a distribution over a measure space

所以，G不是一个固定的分布，也是一个随机量。G~DP（/alpha,H）,DP是分布G的分布，每次抽出一个G，可以抽出很多不同的G，这些G符合同一个分布

----------------------------------------------------------------------------------------------------

附录：inﬁnitely exchangeable性质相关性质

1.在de finetti的数学书中，他证明了，当一个可数无限维随机变量集合{x1,x2,...}满足inﬁnitely exchangeable性质，即，对集合中取出任意N个元素，组成一个集合{x1，x2，...,xN} 如果其上的联合概率和顺序无关，即对{1，2，..N}的任意新排列,记为C1，C2...CN，有P(x1，x2...xN)=P(x_C1,x_C2,...,X_CN),则P（x1，...xN）可写成如下形式：

（1）

也就是说可以把G当成一个类似于参数的东西，使得联合概率中，每个xi相对于G独立，P（G）是参数G的先验概率分布。

这个式子中G可以是无限维的，此时P(G)也由分布推广到了一个随机过程

在上述3个模型中，可以证明，都满足infinitely exchangeable性质，也就是说，由G过程中可以生成一族X变量，在urn中，xi是第i个球的颜色，CRP中，Xi是第i个人的桌子

同时，这个性质也为使得用MCMC求解DPMM成为可能

参考文献：

jardon的入门介绍：Bayesian Nonparametric Learning：Expressive Priors for Intelligent Systems

google到的另一个不错的入门介绍：http://www.cns.nyu.edu/~eorhan/notes/dpmm.pdf

http://www.iro.umontreal.ca/~lisa/seminaires/31-10-2006.pdf

http://blog.csdn.net/sunmenggmail/article/details/7429756

Dirichlet Process-非参数贝叶斯（1）相关推荐

非参数贝叶斯模型概述
看这个模型很久了,可能一直深入的不够,现把自己的一点愚见不断的贴上来,一起交流,共同进步. 贝叶斯非参数模型是一种定义在无限维参数空间上的贝叶斯模型.其大概的意思是说非参数模型的大小可以随着模型内数据 ...
三层Dirichlet 过程(非参贝叶斯模型)-来自Machine Learning
本文作者:合肥工业大学管理学院钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章来源 Nguyen V A, Boyd-Graber ...
[竖立正确的贝叶斯三观] 关于predictive distribution 和非参贝叶斯的理解
[竖立正确的贝叶斯三观] 关于predictive distribution 和非参贝叶斯的理解非参贝叶斯框架:在probabilistic graphical models里,参数往往作为随机变量 ...
通过非递归贝叶斯滤波实现室内环境下建筑平面图的行人惯性导航
文章目录一.介绍二.方法 A.零速更新 B.递归贝叶斯滤波器(RBF) C.提出的方法三.实验设置和结果四.结论 REFERENCES 摘要在这篇论文中,使用一种新颖的非递归贝叶斯滤波 ...
二项分布_贝塔分布（multivariate Beta distribution）_多项分布_狄利克雷分布（Dirichlet distribution）_贝叶斯理论公式浅述
二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述参考书籍<统计学习 ...
主题模型 LDA，Dirichlet分布和朴素贝叶斯算法
主题模型主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型. 主题模型主要被用 ...
非参贝叶斯（Bayesian Non-parameter）初步
0. motivations 如何确定 GMM 模型的 kk,既观察到的样本由多少个高斯分布生成.由此在数据属于高维空间中时,根本就无法 visualize,更加难以建立直观,从而很难确定 kk,高斯 ...
干货丨贝叶斯机器学习前沿进展
来源:人机与认知实验室概要:随着大数据的快速发展,以概率统计为基础的机器学习在近年来受到工业界和学术界的极大关注,并在视觉.语音.自然语言.生物等领域获得很多重要的成功应用. 摘要随着大数据的快 ...
Dirichlet Process and Stick-Breaking（DP的Stick-breaking 构造）
目录 Dirichlet Process简介 Stick-Breaking构造本文作者:合肥工业大学管理学院钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. ...

Dirichlet Process-非参数贝叶斯（1）

Dirichlet Process-非参数贝叶斯（1）相关推荐

最新文章

热门文章