MMD :maximum mean discrepancy(最大平均差异)
MMD:maximum mean discrepancy。最大平均差异。最先提出的时候用于双样本的检测(two-sample test)问题,用于判断两个分布p和q是否相同。它的基本假设是:如果对于所有以分布生成的样本空间为输入的函数f,如果两个分布生成的足够多的样本在f上的对应的像的均值都相等,那么那么可以认为这两个分布是同一个分布。现在一般用于度量两个分布之间的相似性。在[1]中从任意空间到RKHS上介绍了MMD的计算,这里根据这个顺序来介绍。
1.任意函数空间(arbitary function space)的MMD
具体而言,基于MMD(maximize mean discrepancy)的统计检验方法是指下面的方式:基于两个分布的样本,通过寻找在样本空间上的连续函数f,求不同分布的样本在f上的函数值的均值,通过把两个均值作差可以得到两个分布对应于f的mean discrepancy。寻找一个f使得这个mean discrepancy有最大值,就得到了MMD。最后取MMD作为检验统计量(test statistic),从而判断两个分布是否相同。如果这个值足够小,就认为两个分布相同,否则就认为它们不相同。同时这个值也用来判断两个分布之间的相似程度。如果用F表示一个在样本空间上的连续函数集,那么MMD可以用下面的式子表示:
假设X和Y分别是从分布p和q通过独立同分布(iid)采样得到的两个数据集,数据集的大小分别为m和n。基于X和Y可以得到MMD的经验估计(empirical estimate)为:
在给定两个分布的观测集X,Y的情况下,这个结果会严重依赖于给定的函数集F。为了能表示MMD的性质:当且仅当p和q是相同分布的时候MMD为0,那么要求F足够rich;另一方面为了使检验具有足够的连续性(be consistent in power),从而使得MMD的经验估计可以随着观测集规模增大迅速收敛到它的期望,F必须足够restrictive。文中证明了当F是universal RKHS上的(unit ball)单位球时,可以满足上面两个性质。
2.再生核希尔伯特空间的MMD(The MMD In reproducing kernel Hilbert Spaces):
这部分讲述了在RHKS上单位球(unit ball)作为F的时,通过有限的观测来对MMD进行估计,并且设立一些MMD可以用来区分概率度量的条件。
在RKHS上,每个f对应一个feature map。在feature map的基础上,首先对于某个分布p定义一个mean embedding of p,它满足如下的性质:
mean embedding存在是有约束条件的[1]。在p和q的mean embedding存在的条件下,MMD的平方可以表示如下:
下面是关于MMD作为一个Borel probability measures时,对F的一个约束及其证明,要求F:be a unit ball in a universal RKHS。比如Gaussian和Laplace RKHSs。进一步在给定了RKHS对应核函数,这个MMD的平方可以表示:
x和x’分别表示两个服从于p的随机变量,y和y‘分别表示服从q的随机变量。对于上面的一个统计估计可以表示为:
对于一个two-sample test, 给定的null hypothesis: p和q是相同,以及the alternative hypothesis: p和q不等。这个通过将test statistic和一个给定的阈值相比较得到,如果MMD大于阈值,那么就reject null hypothesis,也就是两个分布不同。如果MMD小于某个阈值,就接受null hypothesis。由于MMD的计算时使用的是有限的样本数,这里会出现两种类型的错误:第一种错误出现在null hypothesis被错误的拒绝了;也就是本来两个分布相同,但是却被判定为相同。反之,第二种错误出现在null hypothesis被错误的接受了。文章[1]中提供了许多关于hypothesis test的方法,这里不讨论。
在domain adaptation中,经常用到MMD来在特征学习的时候构造正则项来约束学到的表示,使得两个域上的特征尽可能相同。从上面的定义看,我们在判断两个分布p和q的时候,需要将观测样本首先映射到RKHS空间上,然后再判断。但实际上很多文章直接将观测样本用于计算,省了映射的那个步骤。
reference
[1] A kernel two sample test
[2] Optimal kernel choice for large-scale two-sample tests
[3] Deep domain confusion: maximizing for domain invariance
[4] Learning transferable feature with deep adaptation nets
[5] Deep transfer network:Unsupervised domain adaptation
[6] Adaptive visual category models to new domains
[7] Geodesic flow kernel for unsupervised domain adaptation
[8] Transfer sparse coding for robust image representation
MMD :maximum mean discrepancy(最大平均差异)相关推荐
- 最大均值差异java_MATLAB最大均值差异(Maximum Mean Discrepancy)
MATLAB最大均值差异(Maximum Mean Discrepancy) 更多内容,请看标签:MATLAB.聚类 注:X与Y数据维度必须一致! 1. MMD介绍 2. MATLAB程序 数据 注: ...
- Maximum Mean Discrepancy理解(MMD)
https://blog.csdn.net/tunhuzhuang1836/article/details/78058184 MMD理解 1.定义 MMD:maximum mean discrepan ...
- MMD :maximum mean discrepancy
MMD:maximum mean discrepancy.最大平均差异.最先提出的时候用于双样本的检测(two-sample test)问题,用于判断两个分布p和q是否相同.它的基本假设是:如果对于所 ...
- 迁移学习领域自适应:具有类间差异的联合概率最大平均差异
©PaperWeekly 原创 · 作者|张玮玮 学校|东北大学硕士生 研究方向|情感识别 论文标题:Discriminative Joint Probability Maximum Mean Dis ...
- maximum mean discrepancy
http://blog.csdn.net/a1154761720/article/details/51516273 MMD:maximum mean discrepancy.最大平均差异.最先提出的时 ...
- 《Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation》论文阅读
Weighted Maximum Mean Discrepancy for Unsupervised Domain Adaptation 摘要 类先验分布(Class prior distributi ...
- 最优传输论文(三十):Mind the Class Weight Bias: Weighted Maximum Mean Discrepancy for Unsupervised Domai论文原理
文章目录 前言 摘要 1. Introduction 2. Preliminaries and Related Work 2.1. MMD and Its Application in Domain ...
- Improved 3D Object Detector Under Snowfall Weather Condition Based on LiDAR Point Cloud
Improved 3D Object Detector Under Snowfall Weather Condition Based on LiDAR Point Cloud Method Doubl ...
- 2023年第10期(NeuroImage):DomainATM:多中心医学图像数据标准化工具箱
1. 标题:DomainATM: Domain adaptation toolbox for medical data analysis. 2. 期刊:NeuroImage 3. IF/JCR/分区: ...
最新文章
- c#中邮件收发处理(POP3,IMAP,SMTP)的实现方法
- 学习心得体会、备忘录整理
- static作用:静态变量的生存周期和作用域
- maven项目 jetty_如何使用Java,Maven,Jetty创建Web应用程序项目
- php值对象模式场景,php设计模式介绍之值对象模式第1/5页
- update和delete操作忘加where条件导致全表更新的处理方法
- 计算机三级基础知识考试题,计算机等级考试PC技术练习题:章基础知识
- (99)FPGA ROM实现(V实现)
- 实现Servlet虚拟路径的映射
- wildfly10 配置mysql_WildFly配置MySql驅動
- oracle12c ora01017,ORACLE 12C 之 ORA-01017
- linux如何复制文件夹到根目录,unix如何复制文件和文件夹目录
- android图片添加文字,Android给图片加文字和图片水印
- 174款前端开发工具汇总,学习,开发,事半功倍!
- 计算机毕业设计-基于ssm的问卷调查管理系统
- 【设计模式7】代理模式
- Python的.py与Cython的.pxd.pyx.pyd 文件格式之间的主要区别
- ath9k驱动内的数据发送过程
- 软考系统架构师-计算机组成和体系结构
- 3分钟搞懂阿里云服务器安装Nginx并配置静态访问页面
热门文章
- Js中的?.运算符和??运算符
- 安卓巴士总结了近百个Android优秀开源项目,覆盖Android开发的每个领域
- python文字转语音输出_Python 文本转语音
- R语言绘制美国疫情地图(可交互式)
- 运行iOS开源项目的坑
- 初出茅庐的‘小牛犊’(目标中...)
- 移动通信网络频段大全
- 初中生计算机课程教案,初中信息技术上机课题【初中信息技术课上机实验教学】...
- 【调剂】中国科学院深圳先进技术研究院 脑科学与神经技术团队 招收调剂硕士生...
- PLU-分解以及求逆矩阵