Transfer Component Analysis

属于边缘分布自适应方法

论文原文参考:

https://www.cse.ust.hk/~qyang/Docs/2009/TCA.pdf

摘要

1.引言

DA方法

2.其他方法梗概与基本引理

2.1Domain Adaptation

其他方法梗概

2.2 Hilbert Space Embedding of Distributions

2.2.1 MMD

2.2.2 HSIC

2.3 通过HSIC嵌入

3.TCA

3.1 最小化边缘分布距离

3.1.1 MMDE

3.1.2 参数核映射

3.2 保留源域和目标域数据特性

3.3无监督TCA

4.半监督TCA

4.1最优化目标

4.1.1目标1: 分布匹配

4.1.2目标2: 标签依赖

4.1.3目标3：局部保持

4.2 公式和优化程序

4.3计算问题

5实验

5.1合成数据

5.1.1仅最小化分布之间的距离

5.1.2仅最大化数据方差

5.1.3标签信息

5.1.4 流形信息

5.2跨域的室内WiFi定位

摘要

Domain adaptation allows knowledge from a source domain to be transferred to a different but related target domain.

领域自适应(DA)能够将源领域的知识迁移(transferred)到目标领域. (目标领域与源领域不同但相关)

Intuitively, discovering a good feature representation across domains is crucial.

跨领域发现好的特征表示(feature representation)很重要.

In this paper, we first propose to find such a representation through a new learning method, transfer component analysis (TCA), for domain adaptation.

本文提出一种寻找特征表示的领域自适应(DA)学习方法: 迁移成分分析(TCA).

TCA tries to learn some transfer components across domains in a Reproducing Kernel Hilbert Space (RKHS) using Maximum Mean Discrepancy (MMD).

TCA尝试使用最大均值差异(MMD)作为度量, 在再生核希尔伯特空间(RKHS)中, 跨域学习迁移组件.

In the subspace spanned by these transfer components, data properties are preserved and data distributions in different domains are close to each other.

迁移组件组成的子空间中，数据特性(properties)得以保留，不同域的数据分布(distributions)彼此接近。

As a result, with the new representations in this subspace, we can apply standard machine learning methods to train classifiers or regression models in the source domain for use in the target domain.

得到子空间中的新表示，即可用传统机器学习方法来训练源域中的分类器或回归模型，在目标域使用。

Furthermore, in order to uncover the knowledge hidden in the relations between the data labels from the source and target domains, we extend TCA in a semi-supervised learning setting, which encodes label information into transfer components learning.

此外，将标签(label)信息编码进迁移组件学习, 扩展到半监督学习. 以获取从源域到目标域数据标签间联系的信息.

We call this extension semi-supervised transfer component analysis (SSTCA)

即半监督迁移成分分析SSTCA

The main contribution of our work is that we propose a novel dimensionality reduction framework for reducing distance between domains in a latent space for domain adaptation.

TCA: 新的降维框架(reduction framework)，减少领域之间的距离，在潜在的空间实现领域自适应

We propose both unsupervised and semi-supervised feature extraction approaches, which can dramatically reduce the distance between domain distributions by projecting data onto the learned transfer components.

非监督和半监督特征提取方法，通过将数据投影到学习的迁移组件上，可以显著减少域分布之间的距离

Finally, our approach can handle large data sets and naturally lead to out-of-sample generalization.

该方法可以处理大数据集，样本外的泛化性能(out-of-sample generalization)好

The effectiveness and efficiency of our approach are verified by experiments on five toy data sets and two real-world applications: cross-domain indoor WiFi localization and cross-domain text classification.

该方法的有效性和效率验证: 对5个toy数据集; 两个真实应用(跨域室内WiFi定位和跨域文本分类的实验)

1.引言

有标签的数据获取困难且昂贵, 需要利用一切可利用的数据, 故迁移不同分布的数据十分重要. 准确测量的数据容易过时, 随动态因素变化, 也需要从前一个时期的状态迁移过来.

领域自适应DA(迁移学习的一种): 在相关领域迁移/共享知识

领域自适应DA核心问题: 缩小源领域, 目标领域差异, 找到好的特征表示(feature representation)

好的特征表示(feature representation):

1. 减少域之间分布的差异，

2.保留重要性质(如几何性质、统计性质或边信息)(特别是对于目标域数据)

本文主要贡献:

1. TCA降维方法，通过将数据投影到学习的迁移子空间来减少域之间的距离。找到子空间后，可使用任何方法进行后续的分类、回归和聚类。

2. TCA及其半监督扩展SSTCA比MMDE更有效，可以处理样本外扩展问题(out-of-sample extension)

文章结构:

第2节，介绍领域自适应DA问题，传统的降维方法, 分布之间的距离与依赖的度量, 希尔伯特空间嵌入。

第3节和第4节中介绍TCA。

第5节，对一些玩具数据集和两个实际应用问题进行了一系列的实验，以验证所提出的方法的有效性和效率。

第6节总结

DA方法

早期的几种领域自适应DA方法:

1.Daume III的NLP启发式kernel

2. SCL: Blitzer提出SCL(structural correspondence learning), 对不同领域的特征产生对应关系(correspondences).该方法的距离测量基于A-distance, 能很好降低不同领域差异.

SCL缺点: 依赖于对轴特征(pivot features)的启发式选择, 故难以在不同场景应用.

以往的DA方法基于特征, 没有进行域间分布(distributions between domains)距离的最小化.

近期DA方法:

1. SSA: von Bunau 提出SSA(stationary subspace analysis)匹配隐空间(latent space)的分布. 该方法只关注对平稳子空间的识别, 没有考虑特性(properties)在子空间的保留(如数据方差).

2. MMDE: Pan提出MMDE(Maximum Mean variance Embedding).

MMDE目标: 学习共享隐空间，降低分布间距离, 保持数据方差.

MMDE缺点: ①直推式学习(transductive)，需要已知一些测试数据, 难以泛化到没见过的样本(out-of-sample patterns)②通过求解半定规划SDP(semi-definite program)来学习隐空间，消耗大.

本文DA方法:

TCA(transfer component analysis)做特征提取(feature extraction).

学习得到领域间一组共享的迁移组件(transfer components)，投影到子空间上时，减少域间的数据分布差异，保留数据特性(properties).然后用传统机器学习方法在子空间训练跨领域的分类或回归模型.

即如果两个域相关联的，则可能存在公共组件或潜在变量(latent variables). 其中一些组件导致不同域的数据分布产生差异, 一些能捕获原始数据的内在结构或判别信息(intrinsic structure or discriminative information).

TCA目标-找组件:

1. 使跨领域时, 不会导致分布剧烈变化.

2. 能保留原始数据中结构或与任务相关的信息.

介绍领域自适应DA问题，传统的降维方法, 分布之间的距离与依赖的度量, 希尔伯特空间嵌入

2.其他方法梗概与基本引理

2.1Domain Adaptation

对一组学习样本:

$$ X=\left\{x_{1}, \ldots, x_{n}\right\} \in \mathcal{X} $$

域主要成分

$$ \mathcal{X} $$	输入的特征空间
$$ P(X) $$	输入的边缘(marginal)概率分布

文档分类例: 每一项(term)都作为一个0/1特征，$ \mathcal{X} $是所有文档向量的空间。

域Domain不同->特征空间或边缘概率分布不同

本文假设(考虑情况):

1. 一个源域->一个目标域, 共享相同特征空间$ \mathcal{X} $.

2. 对于源域与目标域数据:

$$ \mathcal{D}_{S}=\left\{\left(x_{S_{1}}, y_{S_{1}}\right), \ldots,\left(x_{S_{n_{1}}}, y_{S_{n_{1}}}\right)\|x_{S_{i}} \in \mathcal{X}\right\} $$	源域中为有标记数据
$$ \mathcal{D}_{T}=\left\{x_{T_{1}}, \ldots, x_{T_{n_{2}}}\|x_{T_{i}} \in \mathcal{X}\right\} $$	目标域中为无标记数据

3. 对于源域与目标域边缘分布

$$ P(X_s) $$

源域中$ X_S=\{x_{S_{i}}\} $的边缘分布

简称P

$$ Q(X_t) $$

目标中$ X_T=\{x_{T_{i}}\} $的边缘分布

简称Q

任务: 预测目标域中输入$ x_{T_{i}} $的对应标签$ y_{T_{i}} $

4. 对于源域与目标域条件分布

$$ P\left(Y_{s} \mid X_{s}\right) = P\left(Y_{t} \mid X_{t}\right), P \neq Q $$

其他方法梗概

领域自适应DA问题与covariate shift自适应问题有关. 主要解决方法: 重要性重加权(importance re-weighting).

covariate shift参考:

https://blog.csdn.net/mao_xiao_feng/article/details/54317852

重加权方法:

1. KMM (kernel mean matching):Huang提出基于核的方法. 在再生核希尔伯特空间(RKHS)中对实例重新加权。

2. KLIEP(Kullback-Leibler importance estimation procedure): Sugiyama提出, 与交叉验证集成，自动执行模型选择。

3. 对率回归: Bickel提出将分布correcting过程集成到核对率回归中。

4. uLSIF: Kanamori提出无约束最小二乘重要性拟合，将重要性估计问题表述为最小二乘函数拟合问题来估计重要性。

这些方法与TCA主要区别: TCA是在隐空间中匹配域之间的数据分布，而不是在原始特征空间中进行匹配. 在隐空间中数据属性可以被保留.

最近，Sugiyama扩展uLSIF算法，通过估计非平稳(non-stationary)子空间的重要性，使在数据域维数较高时也能表现良好。然而，该方法侧重于估计隐空间的重要性，而不是学习在隐空间进行自适应。

其他方法:

在隐空间中匹配分布: von Bunau提出. 在理论上研究了从多元时间序列(multivariate time series)中识别平稳空间(stationary space)的条件。

SSA(stationary subspace analysis): 通过匹配不同epoch数据分布的前两个矩来寻找平稳成分(stationary components).

SSA缺点: 关注的是如何识别平稳子空间(stationary subspace)，不考虑如何在潜在空间中保存数据属性。因此，SSA可能将数据映射到一些在各个领域都是平稳的但与目标监督任务完全无关的噪声特征(noisy factors). 基于SSA学习的新表示训练的分类器可能无法获得良好的领域自适应性能。第3节展示例子.

2.2 Hilbert Space Embedding of Distributions

2.2.1 MMD

最大均值差异Maximum Mean Discrepancy

(计算两个分布的距离. 分布相同时, MMD->0)

分布的距离度量标准分为参数估计(KL散度divergence)与非参数估计(核估计).

参数估计与非参数估计参考:

https://www.zhihu.com/question/51363827

参数估计是已经知道观测数据符合某些模型的情况下，确定这些参数值，然后得出概率密度模型.

非参数估计在不知分布（即不知道密度函数）情况下有用，这时它不需要施加任何参数假设.

MMD: 通过在RKHS再生核希尔伯特空间中嵌入分布，进行非参数距离估计。最大均值差异MMD (Maximum Mean difference)比较RKHS再生核希尔伯特空间中相应距离的分布.

给定:

$$ X = \{x_1,...,x_{n1}\},Y = \{y_1,...,y_{n2}\} $$	两个分布的样本
$$ n_1, n_2 $$	源域和目标域的样本数
$$ \left\\|\cdot\right\\|_{\mathcal{H}} $$	RKHS范数
$$ \phi $$	基于核技巧的特征映射(kernel-induced feature map)

MMD在X和Y的经验估计(empirical estimate):

$$ MMD(X, Y)= \left\|\frac{1}{n_1} \sum_{i=1}^{n_1} \phi\left(x_{i}\right)-\frac{1}{n_2} \sum_{i=1}^{n_2} \phi\left(y_{i}\right)\right\|_{\mathcal{H}}^2 $$

两个分布之间的距离就是RKHS中两个平均元素之间的距离。

即MMD求映射后源域和目标域的均值的差. 若使用一致逼近核(universal), 当且仅当两种分布趋于相同时，MMD趋近于零。

核函数参考:

https://blog.csdn.net/qq_39802199/article/details/116645014

利用核技巧, 可以用核函数来表示这个很难求的映射Φ, 就不需要求出式中的Φ.

2.2.2 HSIC

希尔伯特-施密特独立性准则Hilbert-Schmidt Independence Criterion非参数准则, 用于测量集合X与Y的依赖(dependence)关系.

计算RKHS中互协方差算子(cross-covariance operator)的Hilbert-Schmidt范数。通过相应的核矩阵可得(有偏)经验估计:

$$ \mathop{HSIC}(X, Y)=\frac{1}{(n-1)^{2}} \mathop{tr}\left(H K H K_{y y}\right) $$

其中符号:

$$ K,K_{y y} $$	X, Y上的核矩阵
$$ H=I-\frac{1}{n} \mathbf{1 1}^{\top} $$	中心矩阵(centering matrix)
$$ n $$	X和Y中样本个数

与MMD相似，若使用一致逼近核（RKHS is universal），HSIC趋近于零当且仅当X和Y是独立的. HSIC值越大，说明相关性越强.

universal参考:

https://www.cnblogs.com/zhangcn/p/13726708.html

2.3 通过HSIC嵌入

Embedding Using HSIC

嵌入/降维目标:

1. 保留数据局部几何特性(local data geometry)

2. 尽量对齐(align)嵌入与可用信息(如标签)

例

降维方法colored MVU (colored maximum variance unfolding)获取local geometry的形式:

目标嵌入K上的局部距离约束;

同时用HSIC准则度量来对齐信息(以核矩阵Kyy表示)

在数学上使用半正定规划SDP(semi-definite program):

$$ \max _{K \succeq 0} \operatorname{tr}\left(H K H K_{y y}\right) \text { subject to constraints on } K $$

注: 当没有给定边信息(side information)时(即Kyy = I), 退化为最大方差展开(MVU)

colored MVU参考:

https://wenku.baidu.com/view/1e096b1714791711cc791719.html

3.TCA

之前DA方法假设-边缘概率不等, 但条件概率等:

$$ P \neq Q,P\left(Y_{s} \mid X_{s}\right) = P\left(Y_{t} \mid X_{t}\right) $$

这个假设条件太强了,实际中条件概率P(Y|X)也不等, (由于观测数据的噪声或动态因素而跨域变化).

TCA用更弱假设-边缘/条件概率不等, 但存在转换(transformation)Φ, 使边缘/条件概率近似相等.

$$ P \neq Q\\ P\left(\phi\left(X_{S}\right)\right) \approx P\left(\phi\left(X_{T}\right)\right), \\ P\left(Y_{S} \mid \phi\left(X_{S}\right)\right) \approx P\left(Y_{T} \mid \phi\left(X_{T}\right)\right) $$

然后可以在源域映射后的数据上训练模型, 模型用于目标域映射后的数据预测:

$$ (\phi(X_{S}),Y_{S} )\mathop\rightarrow\limits^{train} model \mathop\rightarrow\limits^{apply} \phi(X_{T}) $$

寻找变换Φ思路:

由于目标域数据无标记，无法获得条件概率$ P\left(Y_{T} \mid \phi(X_{T})\right) $, 只能获得边缘概率$ P\left(\phi(X_{T})\right) $.

所以不能通过条件概率距离, 只能通过最小化边缘分布距离学习ϕ:

1. 边缘分布$ P(\phi(X_{S})) $和$ P(\phi(X_{T})) $距离较小

2. 映射后$ \phi\left(X_{S}\right) $和$ \phi\left(X_{T}\right) $保留了$ X_S $和$ X_T $的重要特性

假设映射后满足$ P\left(Y_{S} \mid \phi\left(X_{S}\right)\right) \approx P\left(Y_{T} \mid \phi\left(X_{T}\right)\right) $

3.1 最小化边缘分布距离

边缘分布P(ϕ(XS)), P(ϕ(XT ))

假设Φ是一致逼近(universal) 核生成的特征映射, 则如2.2.1节所示，要估计两个分布PQ距离, 可以通过两个域的经验均值(empirical means)距离:

$$ \mathop{Dist}\left(X_{S}^{\prime}, X_{T}^{\prime}\right)=\left\|\frac{1}{n_{1}} \sum_{i=1}^{n_{1}} \phi\left(x_{S_{i}}\right)-\frac{1}{n_{2}} \sum_{i=1}^{n_{2}} \phi\left(x_{T_{i}}\right)\right\|_{\mathcal{H}}^{2} $$

最小化距离所得即为所求的非线性映射Φ. 由于ϕ通常高度非线性，直接最小化与ϕ有关的参数可能会陷入较差的局部最小值.

3.1.1 MMDE

最大均值差异嵌入Maximum Mean Discrepancy Embedding, 基于降维的DA方法.

关于使用MMD衡量分布差异的理解可以参考之前MMD笔记:

https://blog.csdn.net/lagoon_lala/article/details/120474243

MMD的基本思想

如果两个随机变量的任意阶矩都相同，则分布一致。

两个分布不相同的话，那么使得两个分布之间差距最大的那个矩被用来作为度量两个分布的标准.

获得随机变量高阶矩方法: 核函数kernel embedding of distributions

高斯核函数(支持向量机提到)，其映射函数可以映射到无穷维上，映射到无穷维上再求期望，正好可以得到随机变量的高阶矩.

φ(x)无穷维, 需要用核函数表达, 所以需要求核矩阵K.

直接计算非线性变换ϕ太难, 可以转化为核学习问题, 如MMDA. MMDA是基于降维的域自适应方法, 使用非线性映射Φ将源域和目标域数据嵌入到共享的低维隐空间(这个和TCA相似)，然后通过求解半定规划SDP学习相应的核矩阵K:

$$ K=\left[\begin{array}{ll} K_{S, S} & K_{S, T} \\ K_{T, S} & K_{T, T} \end{array}\right] \in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times\left(n_{1}+n_{2}\right)} $$

其中符号含义:

$$ K_{S, S} $$	嵌入空间中源域的Gram矩阵
$$ K_{T, T} $$	嵌入空间中目标域的Gram矩阵
$$ K_{S, T} $$	嵌入空间中跨域数据的Gram矩阵

注:在所有数据上定义的核矩阵，对于投影后的源域Φ(Xs)和目标域数据Φ(Xt), 最小化(MMD度量)距离，同时最大化嵌入数据的方差. 则3.1节中的MMD距离根据核技巧可以写成tr(KL):

$$ \begin{aligned} \mathop{Dist}\left(X_{S}^{\prime}, X_{T}^{\prime}\right)=&\left\|\frac{1}{n_{s}} \sum_{i=1}^{n_{s}} \phi\left(x_{S_{i}}\right)-\frac{1}{n_{t}} \sum_{j=1}^{n_{t}} \phi\left(x_{T_{j}}\right)\right\|_{\mathcal{H}}^{2}\\ &=\operatorname{tr} \left( \begin{bmatrix}\phi(x_{S_{i}}) & \phi(x_{T_{j}})\end{bmatrix} \begin{bmatrix}\frac{1}{n^2_s} \mathbf{1}\mathbf{1}^{\mathrm{T}} & \frac{-1}{n_s n_t} \mathbf{1}\mathbf{1}^{\mathrm{T}} \\ \frac{-1}{n_s n_t} \mathbf{1}\mathbf{1}^{\mathrm{T}} & \frac{1}{n^2_t} \mathbf{1}\mathbf{1}^{\mathrm{T}}\end{bmatrix} \begin{bmatrix}\phi(x_{S_{i}})^\mathrm{T} \\ \phi(x_{T_{j}})^\mathrm{T}\end{bmatrix} \right)\\&=\operatorname{tr} \left( \begin{bmatrix}\phi(x_{S_{i}})^\mathrm{T} \\ \phi(x_{T_{j}})^\mathrm{T}\end{bmatrix} \begin{bmatrix}\phi(x_{S_{i}}) & \phi(x_{T_{j}})\end{bmatrix} \begin{bmatrix}\frac{1}{n^2_s} \mathbf{1}\mathbf{1}^{\mathrm{T}} & \frac{-1}{n_s n_t} \mathbf{1}\mathbf{1}^{\mathrm{T}} \\ \frac{-1}{n_s n_t} \mathbf{1}\mathbf{1}^{\mathrm{T}} & \frac{1}{n^2_t} \mathbf{1}\mathbf{1}^{\mathrm{T}}\end{bmatrix} \right)\\&=\operatorname{tr} \left( \begin{bmatrix}<\phi(x_{S_{i}}),\phi(x_{S_{i}})> & <\phi(x_{S_{i}}),\phi(x_{T_{j}})> \\ <\phi(x_{T_{j}}),\phi(x_{S_{i}})> & <\phi(x_{T_{j}}),\phi(x_{T_{j}})>\end{bmatrix} \mathbf{L} \right)\\&=\operatorname{tr} \left( \begin{bmatrix} K_{s,s} & K_{s,t}\\ K_{t,s} & K_{t,t} \end{bmatrix} \mathbf{L} \right)\\ &=\operatorname{tr} \left( \mathbf{KL} \right)\end{aligned} $$

MMDE的目标(objective)函数为:

$$ \max _{K \succeq 0} \operatorname{tr}(K L)-\lambda \operatorname{tr}(K) \text { subject to constraints on } K $$

其中第一项最小化分布距离，而第二项最大化特征空间的方差，λ≥0是权重参数.

MMDE缺点:

1. 直推式学习(transductive)，需要已知一些测试数据, 难以泛化到没见过的样本.

2. 核的学习需要求解半定规划SDP(semi-definite program)，开销大.

3. 为求低维表示$ X'_S,X'_T $, 得到K后需要用PCA再处理, 损失了信息.

3.1.2 参数核映射

针对未出现样本的参数核映射Parametric Kernel Map for Unseen Patterns

提出一个非线性映射ϕ的有效框架:

基于核特征提取(kernel feature extraction), 避免使用SDP，降低开销。且学习到的核可以泛化到未见样本。

提出一种统一的核学习方法:

利用显式的低秩表示(explicit low-rank representation)，而不是使用MMDE中的两步方法(两步指的是1.学习最优的核矩阵K. 2.利用K对源域目标域数据进行核化的PCA, 得到低维重构特征)。

1. 经验核映射. 分解(decomposed)核矩阵K:

$$ K=\left[\begin{array}{ll} K_{S, S} & K_{S, T} \\ K_{T, S} & K_{T, T} \end{array}\right] \in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times\left(n_{1}+n_{2}\right)}\\ \Rightarrow K=\left(K K^{-1 / 2}\right)\left(K^{-1 / 2} K\right) $$

2. 用$ \widetilde{W} \in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times m} $将经验核映射的特征转换到更低的m维空间(其中$ m \ll n_{1}+n_{2} $)

转换后的核矩阵结果定义为$ \widetilde{K} $:

$$ \widetilde{K}=\left(K K^{-1 / 2} \widetilde{W}\right)\left(\widetilde{W}^{\top} K^{-1 / 2} K\right)\\ \mathop\Longrightarrow\limits^{W=K^{-1 / 2} \widetilde{W}} K W W^{\top} K $$

(此处定义了$ W=K^{-1 / 2} \widetilde{W} $)

任意两个样本xi和xj的核估计为:

$$ \widetilde{k}\left(x_{i}, x_{j}\right)=k_{x_{i}}^{\top} W W^{\top} k_{x_{j}} \\ k_{x}=\left[k\left(x_{1}, x\right), \ldots, k\left(x_{n_{1}+n_{2}}, x\right)\right]^{\top} \in \mathbb{R}^{n_{1}+n_{2}} $$

因此，核$ \widetilde{k} $为样本外核估计(out-of-sample kernel evaluations)提供了一个容易获得的参数形式.

利用$ \widetilde{K} $的定义，X’s和X’t两个域的经验均值之间的MMD距离可以重写为:

$$ \mathop{Dist}\left(X_{S}^{\prime}, X_{T}^{\prime}\right)=\mathop{tr}(KL)\\ \mathop\Longrightarrow\limits^{\widetilde{K} =K W W^{\top} K}\mathop{tr}\left(\left(K W W^{\top} K\right) L\right)\\\mathop\Longrightarrow\limits^{tr(AB)＝tr(BA)}\mathop{tr}\left(W^{\top} K L K W\right) $$

在最小化上式时，常需要一个正则化项$ tr(W^T W) $来控制W的复杂性, 同时避免广义特征值分解中分母出现秩亏.

3.2 保留源域和目标域数据特性

Preserving Properties of XS and XT

进行领域自适应DA学习转换ϕ时，仅最小化分布P(ϕ(XS))和P(ϕ(XT))距离不够。

二维例子(图a)

源域数据: 红色;

目标域数据: 蓝色.

对于两个域，x1是能够区分正样本和负样本的方向，x2是方差小的噪声维数.

若只最小化P(ϕ(XS))和P(ϕ(XT))之间的距离，可能选择噪声组件x2，但它与目标监督任务完全无关。

因此，除了减小边缘分布(marginal distributions)的距离外，ϕ还应保留对监督学习任务目标有用的数据特性. 如PCA和KPCA, 最大限度地保留数据方差.

根据转换低维后的核估计矩阵定义$ \widetilde{K} $:

$$ \widetilde{K} =K W W^{\top} K \in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times\left(n_{1}+n_{2}\right)} $$

得到:

$$ W^{\top} K $$

数据在隐空间的嵌入

$$ [W^{\top} K]_i $$

$ x_i $对应的嵌入坐标为第i列

$$ W^{\top} K H K W \in \mathbb{R}^{ m \times m} $$

投影样本的方差

即需要维持的数据特征:

方差/散度矩阵$ AHA^\top $

因为K为对称矩阵, 所以两边的K都可以不加转置

这就是保留数据特性, 最大化的目标(方差):

$$ W^{\top} K H K W $$

其中:

$$ K\in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times\left(n_{1}+n_{2}\right)} $$	核矩阵
$$ W=K^{-1 / 2} \widetilde{W}\in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times m} $$	转换矩阵
$$ H=I_{n_{1}+n_{2}}-\frac{1}{n_{1}+n_{2}} \mathbf{1} \mathbf{1}^{\top} $$	中心矩阵
$$ \mathbf{1} \in \mathbb{R}^{n_{1}+n_{2}} $$	里面都是1的列向量
$$ \mathbf{1 1}^{\top}= \begin{bmatrix} 1 &\cdots &1 \\ \vdots & \ddots&\vdots\\ 1 &\cdots &1 \end{bmatrix} $$	里面都是1的方阵
$$ I_{n_{1}+n_{2}} \in \mathbb{R}^{(n_{1}+n_{2})\times(n_{1}+n_{2})} $$	单位矩阵

例子(图b)

然而，仅仅关注数据方差在域自适应中也是不可取的。如图1(b)，其中方差最大的方向(x1)没有缩小跨域的两个分布的距离，所以也不能提高DA的性能.

理解x1与x2:

图(a)通过x1值的大小可以比较容易区分样本的正负(负样本在左侧, 正样本在右侧), x2方向虽然源域和目标域的值相互接近, 但则很难做出这种区分, 所以称为对目标任务的噪声分量.

图(b)，x1方向的方差最大, 但同样很难通过x1的值区分正负样本, 所以仅考虑保留数据方差时, x1没有缩小跨域的两个分布的距离.

3.3无监督TCA

提出DA降维方法，使得在隐空间中，既能保留数据的方差，又可减小分布间距离. 此时的核学习(kernel learning)问题:

$$ \min _{W} \mathop{tr}\left(W^{\top} K L K W\right)+\mu \mathop{tr}\left(W^{\top} W\right) \\ \text { s.t. } W^{\top} K H K W=I_{m} $$

其中$ \mu>0 $是权重参数，$ I_{m} \in \mathbb{R}^{m\times m} $是单位矩阵, 简记为$ I $.

其中约束$ W^{\top} K H K W=I $代表投影样本的散度(方差), 求解目标为使该式最小化且满足约束的W

优化问题约束$ W^{\top} K H K W=I $为非凸范数，可通过下面的迹优化问题求解：

(命题1) 核学习问题(上式)可表示为:

$$ \max _{W} \mathop{tr}\left(\left(W^{\top}(K L K+\mu I) W\right)^{-1} W^{\top} K H K W\right), (7) $$

带有约束的优化问题, 用拉格朗日对偶求解

证明：核学习问题的拉格朗日函数是

$$ \mathop{tr}\left(W^{\top}(K L K+\mu I) W\right)-\mathop{tr}\left(\left(W^{\top} K H K W-I\right) Z\right),(8) $$

其中Z是拉格朗日乘子组成的对角矩阵, 此时目标仍是最小化该式的w

设上式(对W)的导数为零得:

$$ (K L K+\mu I) W=K H K W Z ,(9)\\ \mathop\Longrightarrow\limits^{等式两边同时左乘W^{\top}} W^\top (K L K+\mu I) W=W^\top K H K W Z ,(10)\\ \mathop\Longrightarrow\limits^{解出Z} \left(W^{\top} K H K W\right)^{\dagger} W^{\top}(K L K+\mu I) W=Z ,(11)$$

其中求导过程可直接代matrix cookbook矩阵求导公式, 与迹求导公式, 再按对称矩阵的转置化简:

$$ \frac{\partial}{\partial \mathbf{X}} \operatorname{Tr}\left(\mathbf{X}^{T} \mathbf{B} \mathbf{X}\right)=\mathbf{B} \mathbf{X}+\mathbf{B}^{T} \mathbf{X} \\ \frac{\partial}{\partial \mathbf{X}} \operatorname{Tr}\left[\mathbf{X}^{T} \mathbf{B} \mathbf{X} \mathbf{C}\right]=\mathbf{B} \mathbf{X} \mathbf{C}+\mathbf{B}^{T} \mathbf{X} \mathbf{C}^{T} $$

将(10),(11)分别代入(8)得:

$$ \mathop{tr}\left(W^{\top}(K L K+\mu I) W\right)-\mathop{tr}\left(\left(W^{\top} K H K W-I\right) Z\right)\\ \mathop\Longrightarrow\limits^{tr(a+b)=tr(a)+tr(b)} \mathop{tr}\left(W^{\top}(K L K+\mu I) W-\left(W^{\top} K H K W-I\right) Z\right) \\ \mathop\Longrightarrow\limits^{(10)两式相消}tr(Z)\\ \mathop\Longrightarrow\limits^{(11)代入Z} \mathop{tr}\left(\left(W^{\top} K H K W\right)^{\dagger} W^{\top}(K L K+\mu I) W\right) $$

其中的†代表伪逆, 即不一定存在的逆.

综上所述, 优化目标为:

$$ \min _{W} tr(Z)\\ = \min _{W} \mathop{tr}\left(\left(W^{\top} K H K W\right)^{\dagger} W^{\top}(K L K+\mu I) W\right) $$

(min转换为max的过程求了逆)由于矩阵Klk+µI是非奇异的，所得即为核学习(kernel learning)问题等价的迹最大化问题(7)。

证明矩阵KLK+µI非奇异

用符号eig(A)表示矩阵A的特征值

K是实对称矩阵, L为半正定矩阵, 则KLK=KLK'也是半正定矩阵. (见注1, 2, 3)

得eig(KLK)≥0.

I为单位矩阵. 根据公式:

$$ \operatorname{eig}(\boldsymbol{A}-c \boldsymbol{I})=\operatorname{eig}(\boldsymbol{A})-c $$

(参考<矩阵分析与应用>张贤达P49. 简短证明: （A+kE）α=（λE+kE）α=（λ+k）Eα)

可知矩阵KLK+µI特征值:

$$ \operatorname{eig}(\boldsymbol{K L K}+\mu \boldsymbol{I})=\operatorname{eig}(\boldsymbol{K L K})+\mu\\ \operatorname{eig}(\boldsymbol{K L K})\geq 0,\mu>0\Rightarrow \operatorname{eig}(\boldsymbol{K L K})+\mu>0 $$

假设A为实矩阵, 根据矩阵非奇异的判定方法:

$$ 矩阵A非奇异\Leftrightarrow |A|\neq 0\Leftrightarrow \operatorname{eig}(A)\neq 0, A \in R^n $$

因为矩阵KLK+µI特征值均为正, 所以KLK+µI非奇异

注1: K为实对称矩阵

参考:

https://www.zhihu.com/question/289165454/answer/1846140888

内积具有对称性, 因此核矩阵是一个实对称矩阵

$$ K_{ij}=\langle\phi(x^{(i)}),\phi(x^{(j)})\rangle=\langle\phi(x^{(j)}),\phi(x^{(i)})\rangle=K_{ji} $$

注2: L为半正定矩阵

$$ \boldsymbol L= \begin{bmatrix}\frac{1}{n^2_s} \mathbf{1}\mathbf{1}^{\mathrm{T}} & \frac{-1}{n_s n_t} \mathbf{1}\mathbf{1}^{\mathrm{T}} \\ \frac{-1}{n_s n_t} \mathbf{1}\mathbf{1}^{\mathrm{T}} & \frac{1}{n^2_t} \mathbf{1}\mathbf{1}^{\mathrm{T}}\end{bmatrix} $$

其中$ \mathbf{1}\mathbf{1}^\top $为全1矩阵

$$ \begin{aligned} \left(\boldsymbol L\right)_{i j}=\left\{\begin{array}{ll}{\frac{1}{n_{s} n_{s}},} & {\mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{s}} \\ {\frac{1}{n_{t} n_{t}},} & {\mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{t}} \\ {\frac{-1}{n_{s} n_{t}},} & {\text { otherwise }}\end{array}\right. \end{aligned} $$

不妨设L为4阶矩阵:

$$ |L-\lambda E|=\left| \begin{array}{cccc} \frac{1}{n^2_s}-\lambda & \frac{1}{n^2_s} & \frac{-1}{n_s n_t} &\frac{-1}{n_s n_t}\\ \frac{1}{n^2_s} & \frac{1}{n^2_s}-\lambda & \frac{-1}{n_s n_t} &\frac{-1}{n_s n_t} \\ \frac{-1}{n_s n_t} & \frac{-1}{n_s n_t} & \frac{1}{n^2_t}-\lambda & \frac{1}{n^2_t} \\ \frac{-1}{n_s n_t} & \frac{-1}{n_s n_t} & \frac{1}{n^2_t} & \frac{1}{n^2_t}-\lambda \end{array}\right| \\ \mathop =\limits^{r_1-r_2}_{r_3-r_4} \left| \begin{array}{cccc} -\lambda & \lambda & 0 & 0 \\ \frac{1}{n^2_s} & \frac{1}{n^2_s}-\lambda & \frac{-1}{n_s n_t} &\frac{-1}{n_s n_t} \\ 0 & 0 & -\lambda & \lambda \\ \frac{-1}{n_s n_t} & \frac{-1}{n_s n_t} & \frac{1}{n^2_t} & \frac{1}{n^2_t}-\lambda \end{array}\right| \\ \mathop =\limits^{c_1+c_2}_{c_3+c_4}\left|\begin{array}{cccc}0&\lambda & 0 & 0\\ \frac{2}{n^2_s}-\lambda & \frac{1}{n^2_s}-\lambda & \frac{-2}{n_s n_t} & \frac{-1}{n_s n_t}\\ 0& 0&0&\lambda\\ \frac{-2}{n_s n_t} & \frac{-1}{n_s n_t} & \frac{2}{n^2_t}-\lambda & \frac{1}{n^2_t}-\lambda \end{array}\right| \\ = \lambda^2 \left|\begin{array}{cccc}0& 1 & 0 & 0\\ \frac{2}{n^2_s}-\lambda & \frac{1}{n^2_s}-\lambda & \frac{-2}{n_s n_t} & \frac{-1}{n_s n_t}\\ 0& 0&0&1\\ \frac{-2}{n_s n_t} & \frac{-1}{n_s n_t} & \frac{2}{n^2_t}-\lambda & \frac{1}{n^2_t}-\lambda \end{array}\right| \\ \mathop =\limits^{按a_{12}展开}\lambda^2(-1) \left|\begin{array}{ccc} \frac{2}{n^2_s}-\lambda & \frac{-2}{n_s n_t} & \frac{-1}{n_s n_t}\\ 0& 0&1\\ \frac{-2}{n_s n_t} & \frac{2}{n^2_t}-\lambda & \frac{1}{n^2_t}-\lambda \end{array}\right|\\=\lambda^2\left[\frac{4}{n_s^2 n_t^2}-\left(\frac{2}{n_s^2}+\frac{2}{n_t^2}\right)\lambda+\lambda^2-\frac{4}{n_s^2 n_t^2} \right] \\ \lambda_1=\lambda_2=\lambda_3=0, \lambda_4=\frac{2}{n_s^2}+\frac{2}{n_t^2}>0$$

得

$$ \boldsymbol L^\top=\boldsymbol L, \operatorname{eig}(\boldsymbol{L})\geq 0 $$

所以L为半定矩阵

(用同样的方法验证, 可知H不一定是正定的, $ W^{\top} K H K W $不能保证可逆)

注3: KLK是半正定矩阵

已知K是实对称矩阵, L为半正定矩阵.

$$ K L K=K L K^\top $$

根据半正定矩阵的定义:

(参考<矩阵分析与应用>张贤达P45)

$ \boldsymbol{A} $称为半正定矩阵$ \boldsymbol{A} \succeq 0 $, 若二次型$ \boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x} \geqslant 0, \forall \boldsymbol{x} \neq \mathbf{0} $

取列向量$ x\in R^n $:

$$ x^\top (K L K) x=x^\top K L K^\top x=(K^\top x)^\top L (K^\top x) $$

令$ y=K^\top x ,y\in R^n $, 有

$$ x^\top (K L K) x=(K^\top x)^\top L (K^\top x)=y^\top L y $$

因为L为半正定矩阵, 所以:

$$ x^\top (K L K) x=y^\top L y \geq 0$$

所以矩阵KLK也是半正定的.

求解变换矩阵W

结论: 类似核Fisher判别分析(KFD)，(7)中W的解是$ (K L K+\mu I)^{-1} K H K $的前m个特征向量(m leading eigenvectors), 其中$ m \leq n_{1}+n_{2}-1 $. 即该矩阵特征分解得到最大特征值所对应的特征向量.

推导: 根据式(9)解出W

$$ (K L K+\mu I) W=K H K W Z \\ \mathop\Longrightarrow\limits^{凑特征分解形式\lambda \alpha=A\alpha}WZ^{-1}=(K L K+\mu I)^{-1}K H K W \\ \mathop\Longrightarrow\limits^{代入Z,即拉格朗日乘子\lambda组成的对角阵} [\frac{1}{\lambda_1}w_1...\frac{1}{\lambda_n}w_n]=(K L K+\mu I)^{-1}K H K [w_1...w_n] \\ \Longrightarrow \min _{W} tr(Z)=\max _{W} tr(Z^{-1}),取最大的\frac{1}{\lambda_i}对应的w_i $$

这种方法即为迁移成分学习(TCA)

4.半监督TCA

一个好的表示应该:

(1)减少源域数据和目标域数据分布之间的距离；

(2)最小化源域中标记数据的经验误差

但无监督TCA在学习组件时没有考虑标签信息.

在许多实际应用中(如WiFi定位)，高维观测数据具有固有的低维流形。流形信息的有效利用是许多半监督学习算法的重要部分.

本节将3.3节中的无监督TCA扩展到半监督学习环境。通过内核目标对齐(kernel target alignment)，最大化其与数据标签的相关性后的表示可能产生更好的泛化性能。因此，我们可以最大化标签相关性，而不是最小化经验误差(第4.1.2节).

此外，将流形结构编码到嵌入学习(embedding learning)中，以便将label信息从有标记数据(源域)传递(propagate)到无标记数据(目标域) (第4.1.3节).

注意，在传统的半监督学习设置中，标记数据和无标记数据来自相同的域. 但DA中，标记数据和无标记数据来自不同的域.

4.1最优化目标

Optimization Objectives

本节描述该半监督嵌入欲得的三个理想性质:

(1)嵌入空间中源域和目标域数据分布的最大对齐性;

(2)对标签信息的高度依赖性;

(3)局部几何保持性

4.1.1目标1: 分布匹配

Distribution Matching

在嵌入空间中, 对源域和目标域数据最小化MMD(即与无监督TCA相同):

$$ \mathop{Dist}\left(X_{S}^{\prime}, X_{T}^{\prime}\right)=\mathop{tr}\left(\left(K W W^{\top} K\right) L\right)=\mathop{tr}\left(W^{\top} K L K W\right) $$

4.1.2目标2: 标签依赖

通过HSIC度量, 最大化嵌入(embedding)与标签的相关性(dependence).其中源域数据都有标记，目标域数据都未标记.

最大限度地对齐:

$$ \widetilde{K}=K W W^{\top} K $$

embedding$ \widetilde{K} $

$$ \tilde{K}_{y y}=\gamma K_{l}+(1-\gamma) K_{v}, \gamma \geq 0 $$

$ \tilde{K}_{y y} $

其中, 为了最大化源域的有标记数据对标签依赖性:

$$ \left[K_{l}\right]_{i j}=\left\{\begin{array}{ll} k_{y y}\left(y_{i}, y_{j} \right), & i, j \leq n_{1}\\ 0, &otherwise\end{array} \right.$$

为了最大化源域数据和目标域数据的方差(类似MVU):

$$ K_{v}=I $$

将$ \widetilde{K} $和$ \tilde{K}_{y y} $(即以上两式)代入HSIC得最大化目标:

$$ \mathop{HSIC}( \widetilde{K} , \tilde{K}_{y y})=\frac{1}{(n-1)^{2}} \mathop{tr}\left(H \widetilde{K} H \tilde K_{y y}\right)\\ \mathop{tr}\left(H \widetilde{K} H \tilde K_{y y}\right)=\mathop{tr}\left(H\left(K W W^{\top} K\right) H \tilde{K}_{y y}\right)\\=\mathop{tr}\left(W^{\top} K H \tilde{K}_{y y} H K W\right)$$

注: γ是平衡标签依赖(label dependence)项$ K_{l} $和数据差异(variance)项$ K_{v} $的权重参数.

1. 源域有标签数据多，标签依赖估计的准确性↑, γ↑

2. 源域已标记数据少, 目标域未标记数据多，γ↓

根据经验，设置γ=0.5对所有数据集表现不错. 性能对γ的敏感性在第5.2节和第5.3节详细讨论.

4.1.3目标3：局部保持

Locality Preserving

如第2.3和3.1.1节所述，Colored MVU和MMDE通过对所求核矩阵K施加距离约束来保持流形的局部几何(local geometry of the manifold). 即认为, 如果xi、xj是输入空间中的邻居，则xi和xj的嵌入坐标之间的距离应该很小.

具体定义:

$$ \mathcal{N}=\left\{\left(x_{i}, x_{j}\right)\right\} $$	彼此互为k最近邻(k-nearest neighbors of each other)的样本对集合
$$ d_{i j}=\left\\|x_{i}-x_{j}\right\\| $$	原始输入空间中xi，xj之间的距离
$$ K_{i i}+K_{j j}-2 K_{i j}=d_{i j}^{2} $$	对每个样本对(xi，xj)约束

不用SDP, SDP结果中有很多约束. 用流形正则化(manifold regularizer)的保局性(locality preserving property).

构造一个图, 如果xi是xj的(或xj是xi的)k个近邻之一，则图的affinity为$ m_{i j}=\exp (-d_{i j}^{2} / 2 \sigma^{2}) $

设$ M=[m_{ij}] $, 图的拉普拉斯矩阵$ \mathcal{L}=D-M $，其中D是项为$ d_{i i}=\sum_{j=1}^{n} m_{i j} $的对角矩阵

注:数据在$ \mathbb{R}^m $中的嵌入是$ {W}^{\top} K $，其中第i列$ [W^{\top} K]_i $提供xi的嵌入坐标。因此，最小化目标:

$$ \sum_{(i, j) \in \mathcal{N}} m_{i j}\left\|\left[W^{\top} K\right]_{i}-\left[W^{\top} K\right]_{j}\right\|^{2}=\mathop{tr}\left(W^{\top} K \mathcal{L} K W\right) $$

4.2 公式和优化程序

Formulation and Optimization Procedure

结合三个目标，欲求W, 使之同时:

最小化源域和目标域数据最小化MMD

$$ \mathop{Dist}\left(X_{S}^{\prime}, X_{T}^{\prime}\right)=\mathop{tr}\left(W^{\top} K L K W\right) $$

最大化标签依赖与方差的HSIC

$$ \mathop{tr}\left(H \widetilde{K} H \tilde K_{y y}\right)=\mathop{tr}\left(W^{\top} K H \tilde{K}_{y y} H K W\right) $$

保持局部特性, 流形正则化项最小化

$$ \sum_{(i, j) \in \mathcal{N}} m_{i j}\left\|\left[W^{\top} K\right]_{i}-\left[W^{\top} K\right]_{j}\right\|^{2}=\mathop{tr}\left(W^{\top} K \mathcal{L} K W\right) $$

最终的优化问题：

$$ \begin{array}{r} \min _{W} \mathop{tr}\left(W^{\top} K L K W\right)+\mu \mathop{tr}\left(W^{\top} W\right)+\frac{\lambda}{n^{2}} \mathop{tr}\left(W^{\top} K \mathcal{L} K W\right) \\ \text { s.t. } W^{\top} K H \widetilde{K}_{y y} H K W=I \end{array} $$

其中, $\lambda \geq 0$是权重参数，$n^{2}=\left(n_{1}+n_{2}\right)^{2}$是归一化项. 将该项$\frac{\lambda}{n^{2}}$简记为λ.

与无监督TCA类似，上式可以表示为迹问题：

$$ \max _{W} \operatorname{tr}\left\{\left(W^{\top} K(L+\lambda \mathcal{L}) K W+\mu I\right)^{-1}\left(W^{\top} K H \widetilde{K}_{y y} H K W\right)\right\} $$

可以通过特征分解$ (K(L+\lambda \mathcal{L}) K+\mu I)^{-1} K H \widetilde{K}_{y y} H K $来求解该问题

算法1总结了无监督和半监督TCA的过程。

算法1迁移成分分析(TCA)。

输入：源域数据集, 目标域数据集

$$ \mathcal{D}_{S}=\left\{\left(x_{S_{i}}, y_{s r c_{i}}\right)\right\}_{i=1}^{n_{1}},\mathcal{D}_{T}=\left\{x_{T_{j}}\right\}_{j=1}^{n_{2}} $$

输出：变换(transformation)矩阵W

1：(MMDE)用源域和目标域的样本特征$ \left\{x_{S_{i}}\right\}_{i=1}^{n_{1}}, \left\{x_{T_{j}}\right\}_{j=1}^{n_{2}} $构造核矩阵K

$$ K=\left[\begin{array}{ll} K_{S, S} & K_{S, T} \\ K_{T, S} & K_{T, T} \end{array}\right] \in \mathbb{R}^{\left(n_{1}+n_{2}\right) \times\left(n_{1}+n_{2}\right)} $$

并(基于MMDE目标函数)构造矩阵L和(投影样本方差)构造中心矩阵H

$$ \begin{aligned} \left(L\right)_{i j}=\left\{\begin{array}{ll}{\frac{1}{n_{s} n_{s}},} & {\mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{s}} \\ {\frac{1}{n_{t} n_{t}},} & {\mathbf{x}_{i}, \mathbf{x}_{j} \in \mathcal{D}_{t}} \\ {\frac{-1}{n_{s} n_{t}},} & {\text { otherwise }}\end{array}\right. \end{aligned}\\=\left( \begin{array}{c:c} \frac{1}{n_s\cdot n_s} & \frac{-1}{n_s\cdot n_t} \\ \hdashline \frac{-1}{n_s\cdot n_t} & \frac{1}{n_t\cdot n_t} \end{array}\right) \\ H=I_{n_{1}+n_{2}}-\frac{1}{n_{1}+n_{2}} \mathbf{1} \mathbf{1}^{\top} $$

2：(无监督TCA)对矩阵$ (K L K+\mu I)^{-1} K H K $进行特征分解，选择前m个特征向量(m leading eigenvectors)构造变换矩阵W

3：(半监督TCA)对矩阵$ (K(L+\lambda) \mathcal{L} K+\mu I)^{-1} K H \widetilde{K}_{y y} H K $特征分解，选择前m个特征向量构造变换矩阵W

4：返回变换矩阵W。

4.3计算问题

DA中依赖SDP的核学习算法, 时间复杂度极高. 由于$ \widetilde{K} $中有$ O\left(\left(n_{1}+n_{2}\right)^{2}\right) $个变量，总的时间复杂度为$ O\left(\left(n_{1}+n_{2}\right)^{6.5}\right) $

TCA的核学习方法只需特征值分解, 提取m个非零特征向量只需时间$ O\left(m\left(n_{1}+n_{2}\right)^{2}\right) $

5实验

本节在一些玩具数据集上验证该DA方法(的重要性motivations)

5.1合成数据

synthetic data

如2.1节，优化目标需要有一些标准(criteria). 这一部分，通过从2D数据学习1D隐空间实验, 证明 tca/sstca 的有效性. 其中tca，对输入使用线性核函数，参数μ = 1; sstca，对输入和输出都使用线性核，参数μ = 1，γ = 0.5.

5.1.1仅最小化分布之间的距离

如3.2节，仅通过极小化源域与目标域边缘分布$ P(\phi(X_{S})) $和$ P(\phi(X_{T})) $距离来学习 transformation Φ不可取. 以图1(a), 图2(a)中示例的随机合成数据(synthetic data)为例. 将TCA与SSA(静态子空间分析)进行比较. (SSA寻找源域和目标域数据相同的静态隐空间).

	不同领域数据分布距离	正负样本在隐空间分布	目标域数据预测准确率accuracy
SSA(图2(b))	小	重叠	低
TCA(图2(c))	更大	分离	高

用1-最近邻one-nearest-neighbor (1-nn)分类器对3个空间的目标域数据分别进行预测: 原始二维空间, SSA, TCA学习的隐空间. TCA预测的准确性accuracy显著高于SSA.

图中, 原始数据为二维, 横轴代表降到1维时特征x的值, 纵轴PDF代表概率密度函数(随机变量每个取值有多大的可能性), 红色曲线代表源域概率密度函数, 蓝色曲线代表目标域概率密度函数.

计算数据集的概率密度函数可以直接代入正态分布的概率密度公式:

$$ f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left.(x-\mu)^{2}\right)}{2 \sigma^{2}}\right) $$

实现代码可直接调用scipy.stats.norm.pdf([data]), 也可以自己计算数据集的均值方差, 带入上面的公式.

5.1.2仅最大化数据方差

如3.2节，仅通过最大化数据方差学习转换Φ在DA可能没用. 复制图1(b)-> 图2(d)

	映射后数据的方差	不同领域数据分布距离	正负样本在隐空间分布
PCA(图2(e))	大	仍然大	重叠
TCA(图2(f))	更小	减小	分离

5.1.3标签信息

演示在源域数据(图2(g))中使用标签信息提高分类性能的优势. 由于重点不在于局部性质保持，将SSTCA中的λ设置为0。此时SSA和SSTCA之间的区别在于标签信息的使用。

	正负样本在隐空间分布
TCA(图2(h))	显著重叠
SSTCA(图2(i))	更容易分离

当源域数据的区分方向(discriminative direction)可能与目标域数据的区分方向相差很大(图2(j)). 对来自源域的标签信息进行编码(如SSTCA所做的)可能没有帮助甚至损害分类性能.

	正负样本在隐空间分布
TCA(图2(k))	分离
SSTCA(图2(l))	更重叠

不同领域区分方向	SSTCA	TCA	非自适应方法
相似	更好	更差	最差
不同	更差	更好	最差

5.1.4 流形信息

Manifold Information

实验展示了利用流形信息来提高分类性能的优势, 此处源数据和域数据都具有双月流形结构(图2(m)).

SSTCA最终优化问题：

通过设置其中的λ为1000使用拉普拉斯平滑, λ=0不使用拉普拉斯平滑.

当观测数据具有流形结构时, 拉普拉斯平滑确实可以改进分类性能(图2(n), 图2(o)).

5.2跨域的室内WiFi定位

Cross-Domain Indoor WiFi Localization

随着802.11WiFi网络在城市和建筑物中的可用性不断提高，使用无线信号强度或接收信号强度(RSS)来定位和跟踪用户或货物渐渐可能实现.

室内WiFi定位的目标

基于从k个接入点(Access Points ,APs)接收的RSS值:

$$ x_{i}=\left(x_{i_{1}}, x_{i_{2}}, \ldots, x_{i_{k}}\right) $$

(这些接入点周期性地向其他接入点发送无线信号)

估计移动设备的位置:

$$ y_i $$

考虑位置的二维坐标，室内WiFi定位本质上是一个回归问题. 然而，在大型环境中校准定位模型开销巨大; RSS值有噪声，且随时间变化, 即使在相同的环境中，一个时间段收集的RSS数据也可能与在另一个时间段收集的RSS数据不同. 因此，DA对于室内WiFi定位是必要的.

5.2.1 实验设置

Experimental Setup

使用公开数据集, 来自2007年IEEE ICDM竞赛(第二个任务). 包含时间段T1(源域)少量有标签WiFi数据和时间段T2(目标域)大量无标记WiFi数据

标签: 接收到的WiFi数据的位置信息

任务: 预测目标域(时间段T2) WiFi数据的标签

数据集划分:

$$ \mathcal{D}_{S} $$	时间段T1数据, 621个, 全部用于训练
$$ \mathcal{D}_{T} $$	时间段T2数据, 3128个
$$ D_{T}^{o} $$	out-of-sample patterns 从$ \mathcal{D}_{T} $随机划分2328个
$$ \mathcal{D}_{T}^{u} $$	从$ \mathcal{D}_{T} $剩余800个中取, 数量不定, 训练时移除标签

评估目标

1. 直推式评估方法目标: 从$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $学习模型，在$ \mathcal{D}_{T}^{u} $上评估模型

2. 样本外评估方法目标:从$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $学习模型，在样本外点$ \mathcal{D}_{T}^{o} $评估模型(Out-of-Sample Pattern)

评估指标AED

对每个实验重复10次，使用平均误差距离(Average Error Distance, AED)报告平均性能:

$$ AED=\frac{\sum_{\left(x_{i}, y_{i}\right) \in \mathcal{D}}\left|f\left(x_{i}\right)-y_{i}\right|}{N} $$

其中变量含义

$$ x_{i} $$	RSS值的向量
$$ f\left(x_{i}\right) $$	预测位置
$$ y_{i} $$	真实位置
$$ \mathcal{D}=\left\{ \begin{array}{}\mathcal{D}_{T}^{u},&transductive\\ \mathcal{D}_{T}^{o},&out-of-sample\end{array}\right. $$	测试集

将对以下方法进行比较, 从源域中采样50个标记数据作为验证集, 用于所有方法的参调.

类别	方法	思想	调参
传统回归模型(即不做领域自适应)	(有监督) 正则化的最小二乘回归regularized least square regression (RLSR)	只在源域数据集$ \mathcal{D}_{S} $上训练	\
传统回归模型(即不做领域自适应)	(半监督) Laplacian RLSR(LapRLSR)	在$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $上训练，但不考虑分布的差异	\
传统的降维方法	核主成分分析(KPCA)	KPCA在$ \mathcal{D}_{S} , \mathcal{D}_{T}^{u} $上学得投影Φ, RLSR在投影后的源域$ \mathcal{D}_{S}^\phi $学习定位模型	\
重要性加权方法	KMM	在$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $学习$ \mathcal{D}_{S} $的样本权重，在加权后数据上训练RLSR模型	令参数$\epsilon=B / \sqrt{n_{1}} $，其中$ n_1 $是源域中的训练集样本个数
重要性加权方法	KLIEP		用似然交叉验证(likelihood cross-validation) 自动选择核宽度. 初始核宽度对KLIEP性能有影响, 在验证集调整初始值.
目前最好(state-of-the-art)的DA方法	SCL	在$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $学习一组新的跨域特征(cross-domain features). 将新的特征加入(augments features)源域数据$ \mathcal{D}_{S} $. 然后训练RLSR模型.	轴特征(pivot features)由互信息选择，pivot数目和其他SCL参数由验证集确定
本文所提的DA方法	TCA	在$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $用TCA/SSTCA学习迁移成分(transfer components)Φ. 在投影后的源域数据$ \mathcal{D}_{S}^\phi $训练RLSR模型	使用拉普拉斯核: $$ k\left(x_{i}, x_{j}\right)= \exp\left(-\frac{ \left\\| x_{i}-x_{j} \right\\|}{\sigma} \right) $$ 两个参数，核宽度σ和µ 先设µ=1，在$ \left[10^{-5}, 10^{5}\right] $范围内基于验证集搜索最佳σ值再固定σ并在$ \left[10^{-3}, 10^{3}\right] $中搜索最佳µ值
本文所提的DA方法	SSTCA		在有标签数据上对标签依赖性$ \tilde{K}_{y y}=\gamma K_{l}+(1-\gamma) K_{v} $使用线性核对四个可调参数(σ、µ、λ和γ) σ, µ和TCA一样调 λ和γ先固定γ=0.5，并在$ \left[10^{-6}, 10^{6}\right] $中搜索最佳λ值; 再固定λ并在[0，1]中搜索γ
只在隐空间进行分布匹配(distribution matching)	SSA TCAReduced	即用$ W^{\top} W=I $替代TCA中的约束$ W^{\top} K H K W=I $ TCAReduced找变换W，使不同分布之间的距离最小，但不最大化潜在空间中的方差。	\
最好的降维方法	MMDE(目前在本数据集表现最好)	\ (前文有详细公式)	\

5.2.2 与降维方法比较

比较TCA/SSTCA与降维方法(KPCA、SSA和TCAReduced)的样本外的情况. $ \mathcal{D}_{T}^{u} $中未标记样本固定为400个，隐空间的维数(横轴坐标)控制在5到50之间. 结果如图3(a).

TCA和SSTCA的性能优于所有其他方法.

KPCA显著提高性能, 因为WiFi数据噪声多，在去噪的隐空间中学习的定位模型可以比在原始输入空间中更准确. 但KPCA不减小两个域中数据分布距离. 因此，TCA性能比KPCA好.

TCAReduced和SSA虽然减少域间距离，但丢失原始数据的重要信息，影响任务的性能.

SSTCA比TCA性能好.流形假设适用于WiFi数据, SSTCA中的图拉普拉斯项可跨域有效利用标记信息.

5.2.3与非自适应方法比较

比较TCA/SSTCA与非DA领域自适应定位模型(RLSR、LapRLSR和KPCA)

KPCA、TCA和SSTCA的隐空间维数固定为15(根据5.2.2节第一个实验确定)

图3(b)展示了当(横轴)验证集$ \mathcal{D}_{T}^{u} $中的无标记样本的数量变化时的性能, 即使目标域中只有几个无标记的样本，TCA和SSTCA的DA效果也很好.

5.2.4与DA方法比较

比较TCA/SSTCA与最好的DA方法(KMM、KLIEP、SCL和SSA). TCA和SSTCA隐空间维数固定为15，SSA和TCA Reduced隐空间维数固定为50. 训练时使用所有源域数据，并从目标域采样到$ \mathcal{D}_{T}^{u} $, 采样数量作为横轴. 结果如图3(c).

基于特征提取的DA方法(SCL、TCA和SSTCA)明显优于样本重加权(instance re-weighting)方法(KMM, KLIEP). 这也是因为WiFi数据噪声多，因此直接基于噪声空间的分布匹配或轴特征选择(SCL用到)受到影响. 但TCA和SSTCA在已去噪的隐空间做分布匹配.

5.2.5 与MMDE比较

通过直推式预测比较TCA/SSTCA与MMDE.

在$ \mathcal{D}_{S} $和$ \mathcal{D}_{T}^{u} $

学习隐空间的训练集: 源域$ \mathcal{D}_{S} $+无标记目标域$ \mathcal{D}_{T}^{u} $采样的子集

测试集: $ \mathcal{D}_{T}^{u} $

图4(a)固定$ |\mathcal{D}_{T}^{u}| $=400, 隐空间维度作为横轴; 图4(b) 维度固定为15, 无标记目标域样本个数作为横轴.

MMDE的性能优于TCA和SSTCA, 可能由于TCA/SSTCA的核矩阵是参数. 但MMDE用到SDP, 计算开销很大, 训练时间长(图4(c)). 在实践中，TCA/SSTCA可能是比MMDE更好的选择.

5.2.6 参数敏感性

Sensitivity to Parameters

考察参数对回归性能的影响.

TCA参数: 拉普拉斯核中的核宽度σ、权重参数µ

SSTCA参数: σ、µ、γ和λ

任务-样本外估计

训练数据: 所有的源域$ \mathcal{D}_{S} $数据+目标域$ \mathcal{D}_{T} $采样400个

测试数据: 目标域$ \mathcal{D}_{T} $子集2328个样本形成点

TCA/SSTCA的隐空间维数固定为15

从图5可以看出，TCA和SSTCA对各种参数的设置都不敏感

5.3跨域文本分类

5.3.1实验设置

在20-Newsgroups的预处理数据集(sklearn自带)上进行跨域文本分类实验.

预处理策略: 从总的数据集创建六个数据集. 6个数据集中，每个数据集选择两大类，一个作为正类，一个作为负类. 再拆分数据到子类, 每个子类视为一个域，二分类任务对大类别分类. 这种拆分策略确保有标记数据和无标记数据的域相关(属于相同大类)，但不同(来自不同子类). 创建的六个数据集(“比较与科学”、“记录与谈话”、“记录与科学”、“科学与谈话”、“比较与记录”和“比较与谈话”)如表1:

进行out-of-sample实验. 每个跨域分类任务从六个数据集中的一个采样, 进行训练, 分类. 每一个任务的数据集:

$$ \|\mathcal{D}_{S}\|=2\times 1500\times 40\%=1200 $$	从源域随机抽样40%的document
$$ \|\mathcal{D}_{T}^u\|=2\times 1500\times 40\%=1200 $$	从目标域抽样40%作为无标记子集
$$ \|\mathcal{D}_{T}^o\|=2\times 1500\times 60\%=1800 $$	目标域剩余的60%作为样本外的子集

重复运行10次获得平均结果, 评价标准是分类准确率(accuracy).

实验用TCA/SSTCA(µ=1，λ=0.0001, $ \tilde{K}_{y y}=\gamma K_{l}+(1-\gamma) K_{v} $使用线性核)对比以下方法：

空间映射	分类器
原始输入空间	线性支持向量机(SVM)
隐空间-核主成分分析(KPCA)
DA方法-KMM、KLIEP和SCL

5.3.2 结果

结果如表2, 与5.2节类似.

总体而言，特征提取方法优于样本重加权方法.

“R vs.T”、“C vs.T”、“C vs.S”、”Cvs.R“任务，PCA性能与线性TCA相当。

“R vs.S”和“S vs.T”任务，线性TCA的表现比PCA好. 与WiFi实验的结论一致，将来自不同域的数据映射到PCA的隐空间可能不起作用，因为PCA不一定减小两个域分布的距离.

WiFi数据和文本数据的结果差异:

1. 文本数据中, 线性核比RBF核和拉普拉斯核性能更好, 线性核通常适合处理高维文本数据.

2. TCA在文本数据上的性能优于SSTCA. 可能因为文本域没有WiFi域适合流形假设.

测试了TCA和SSTCA中的各种参数对分类性能的影响.

对输入和输出都使用线性核，隐空间维数固定为10. 自由变量: µ，(SSTCA的µ、γ和λ)

µ不敏感.

λ范围广，性能稳定, 但WIFI结果λ≤10^2时表现好，文本数据集上，只有λ≤10^(−4)才表现好. 即流形正则化对该文本数据没用, 无监督TCA比SSTCA合适.

6 结论与展望

本文DA特征提取方法--迁移成分分析(TCA). 学习一组RKHS空间的迁移成分，用于将源域数据投影到隐空间，缩小域之间的距离.

半监督特征提取方法--半监督TCA(SSTCA). 减小域间数据分布距离的同时，最大化隐空间中的标签依赖度.

与以往的DA方法比，TCA和SSTCA在去噪后的隐空间中进行分布匹配, 其他方法在原始特征空间中进行匹配.

未来方向: 1.自适应地估计TCA和SSTCA中的迁移成分数量

2. 加快DA核学习速度，TCA和SSTCA提出使用参数核来度量MMD，我们计划在TCA和SSTCA中开发一种有效的核选择算法. 将TCA和SSTCA扩展到多域(multi-domain)情况.

TCA笔记3:TCA论文阅读相关推荐

论文阅读笔记 | MLP系列——MLP部分汇总(MLP-Mixer、S2-MLP、AS-MLP、ViP、S2-MLPv2)
如有错误,恳请指出. 这篇博客是一篇归纳总结性的博客,对几篇MLP结构文章进行汇总. 文章目录 1. MLP-Mixer 2. S2-MLP 3. AS-MLP 4. ViP 5. S2-MLPv2 ...
迁移学习笔记3: TCA, Finetune, 与Triplet Network(元学习)
主要想讲的内容有: TCA, Finetune, Triplet Network 迁移学习与元学习有哪几类方法想讲的目标(但不一定完全能写完, 下一次笔记补充): 分别属于什么方法, 处于什么位置, ...
全卷积（FCN）论文阅读笔记：Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
SCI论文写作训练营笔记汇总02_英文科技论文阅读与解析
3.英文科技论文阅读与解析的方法 3.1 科技论文介绍 3.1.1 科技论文的类型 • Research • Review • Theoretical • Methodological • Case ...
DnCNN论文阅读笔记【MATLAB】
DnCNN论文阅读笔记论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...
Learning Multiview 3D point Cloud Registration论文阅读笔记
Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...
FCGF论文阅读笔记
FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...
PointConv论文阅读笔记
PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...
DCP（Deep Closest Point）论文阅读笔记以及详析
DCP论文阅读笔记前言本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

TCA笔记3:TCA论文阅读

摘要

1.引言

DA方法

2.其他方法梗概与基本引理

2.1Domain Adaptation

其他方法梗概

2.2 Hilbert Space Embedding of Distributions

2.2.1 MMD

2.2.2 HSIC

2.3 通过HSIC嵌入

3.TCA

3.1 最小化边缘分布距离

3.1.1 MMDE

3.1.2 参数核映射

3.2 保留源域和目标域数据特性

3.3无监督TCA

4.半监督TCA

4.1最优化目标

4.1.1目标1: 分布匹配

4.1.2目标2: 标签依赖

4.1.3目标3：局部保持

4.2 公式和优化程序

4.3计算问题

5实验

5.1合成数据

5.1.1仅最小化分布之间的距离

5.1.2仅最大化数据方差

5.1.3标签信息

5.1.4 流形信息

5.2跨域的室内WiFi定位

5.2.1 实验设置

5.2.2 与降维方法比较

5.2.3与非自适应方法比较

5.2.4与DA方法比较

5.2.5 与MMDE比较

5.2.6 参数敏感性

5.3跨域文本分类

5.3.1实验设置

5.3.2 结果

6 结论与展望

TCA笔记3:TCA论文阅读相关推荐

最新文章

热门文章