自监督学习方法Barlow Twins

记录文章《Barlow Twins: Self-Supervised Learning via Redundancy Reduction》阅读笔记，论文地址。

1 Abstract & Introduction

自监督学习正在迅速发展，它主要是通过学习输入样本的不同distortions版本的不变性embedding特征。其中distortions意思就是同一输入样本经过不同的图像增强变换方式（比如随机裁剪、resize等）得到的不同版本。但这种方法会比较容易出现平凡解，现有方法都是通过实现上的细节来避免平凡解。

本文提出了一种新方法Barlow Twins，它并不太注重样本，也无需使用负样本进行训练（因此不受限于批量大小，可以在小批量数据上进行训练），而是从embedding本身出发，也不需要非对称的结构设计，相比于其他方法使用大批量样本数据，该方法使用高维的embeddings即可。
它将不同的增广样本送入相同的网络中得到两个不同的embeddings，然后计算它们的cross-correlation matrix（互相关矩阵），利用损失函数来降低冗余：使这个互相关矩阵尽可能接近identity matrix（单位矩阵），即对角线元素接近1，非对角线元素接近0，因此就代表着同一样本不同增广版本经过网络后提取的两个特征向量的相同维度分量非常相似，不同维度分量的冗余应该最小化（意味着表示不同的信息）。

如下图所示 $Y^A$ 和 $Y^B$ 是输入样本X的不同增广版本， $Z^A$ 和 $Z^B$ 是它们经过同一网络后得到的embeddings，C即 $Z^A$ 和 $Z^B$ 经过运算后的互相关矩阵，之后再让C逼近于单位矩阵I。

2 Method

Barlow Twins方法设计了自己独特的损失函数，对一个batch来说：

其中 $\lambda$ 是一个正的常数，用来权衡损失函数第一项和第二项的重要性。通过invariance term将C的对角元素等于1，使同一样本不同增广版本的embedding版本不变，redundancy reduction term将非对角元素等于0来减少冗余，对不同的embedding向量解相关。cross-correlation matrix C的计算方法如下：

其中b表示批量batch的索引，i和j是网络输出的特征维度（即当前batch中的某两个向量，i和j表示这两个向量的维度上对应的值， $C_{ij}$ 就是矩阵C中第i行，第j列的元素值，它等于两个不同增广后的特征向量 $Z^A$ 的第i个维度和 $Z^B$ 的第j个维度对应的乘积之和，求和主要是针对当前batch size，这里要详细计算的话可以参考伪代码，写两个矩阵相乘就明白了），C是一个平方矩阵，方阵维度就是网络的输出维度（假设网络输出的每个embedding维度是D，则方阵C的维度是DxD），它的值都在-1（完全负相关）和1（完全相关）之间。

该算法的伪代码如下所示：
在该伪代码中，计算出矩阵C之后，(C-eye(D)).pow(2)的意思是由于eye为单位矩阵，所以相当于C的对角线元素（ $C_{ii}$ ）全部减1再平方，非对角线元素（ $C_{ij}$ ）直接平方；
下面接着一行off_diagonal(c_diff).mul_(lambda)表示提取出C的非对角线元素，让它们都乘以 $\lambda$ ；
再接着一行loss = c_diff.sum()是C的所有元素都相加构成loss。

实现细节：
（1）图像增强
随机裁剪、resize大小至224×224、水平翻转、颜色抖动、转换为灰度、高斯模糊和solarization。其中前两个变换始终应用，后面五个变换以一定的概率随机应用。
（2）网络结构
使用ResNet-50结构（没有最后的分类层），后面紧接着是一个有三层线性层的projector网络，每层输出维度都是8192，前两个线性层后面跟BN层和ReLU。
将encoder（ResNet-50）的输出称为representations，用于下游任务；将projector的输出称为embeddings，用于损失函数。
（3）优化
使用LARS优化器，1000个epoch，batchsize为2048(也可以缩小到256)，weights的学习率设置为0.2，biases和BN参数的学习率设置为0.0048等等。

3 Results

ImageNet上的线性分类和半监督
1、在ImageNet上的线性分类器（都使用本文方法的ResNet-50 encoder）:

2、在ImageNet上的半监督学习

转移到其他数据集和任务（即迁移学习）
1、图像分类

2、对象检测与实例分割

4 Ablations（消融实验）

(本部分参考链接)
文章还进行了一系列的消融实验，包括损失函数、BatchSize、增强手段、映射网络的深度与宽度、网络结构对称性等。
1、Loss Function Ablations
第二行和第三行为在损失函数中只使用对角元素和非对角元素的实验结果，只使用对角线元素时还可以取得一定的实验效果，但是只使用非对角线元素时结果接近0。另外，从第三部分中可以看出，normalize的方法不是很重要，但是必须得有，不然结果会大幅下降，但是MLP中的BN可以不需要。

2、Robustness to Batch Size
从下图可以看出，本文方法不需要很大的batch size也可以取得不错的效果，但是随着batchsize的增加，效果反而会下降，原因主要来源于求矩阵C的时候，batch size越大，每次抽出来的特征维度就越大。

3、Projector Network Depth & Width
如下图，本文方法的性能随着projector网络输出维度的增大而增大，而其他大多方法会较早饱和。

4、Breaking Symmetry
本文方法不同于以往自监督学习的方法，本文使用的是对称（两个相同的）网络，如果使用不对称网络，方法性能会降低：

5、Sensitivity to λ
实验发现模型性能对超参数 $\lambda$ 不敏感，即性能差距不大：

6、数据增广
通过验证，说明了不同的数据增强方法是非常有必要的。

原文Discussion部分可以参考这里

参考链接：
2021(SSL) 自监督学习最新力作
Barlow Twins阅读笔记
self-supervised方法发展流程