Amazing! 从“几何深度学习”看深度学习江湖的统一

水木番发自凹非寺
量子位报道 | 本文转自公众号 QbitAI

你能想象某一天打开深度学习的词条，发现：

深度学习的江湖已经能够被统一了吗？

几何学上的对称性可以玩转整个深度学习吗？

通过对称性和的变换，可以提炼出覆盖CNNs, GNNs, LSTMs, Transformers, DeepSets, mesh CNN等一切你所需构建的架构吗？

不要惊讶，不要怀疑。

一百多年前埃尔兰根大学一位23岁的小伙就给出了答案。

他仅凭一己之力开创的“埃尔兰根计划”，从而在几何学上做出了一项开创性的工作，改变了数学史。

几何学对称问题的源起

在1872年10月，德国的埃尔兰根大学任命了一位新的年轻教授。按照惯例，他被要求提供一个就职研究计划，他以长而乏味的标题Vergleichende Betrachtungen über neuere geometrische Forschungen（“对几何学最新研究的比较评论”）进行了发表。

这位就是菲利克斯·克莱因（Felix Klein），当时他只有23岁，他的开创性工作被称为“埃尔兰根计划”，在数学史上有浓墨重彩的一笔。

十九世纪简直就是几何学的大爆发时代。欧几里得之后的近两千年来，庞塞莱特（Poncelet）构造了投影几何，高斯（Gauss）、波利亚伊（Galys）和洛巴切夫斯基（Lobachevsky）构造了双曲线几何，而黎曼（Riemann）构造了椭圆几何。

克莱因的Erlangen program（埃尔兰根纲领）的突破性体现在研究几何学时运用了结构的对称性。克莱因采用群论的形式来定义此类转换，并采用群及其子群的层次结构来分类由此产生的不同几何形状。

因此，刚性运动会产生传统的欧几里得几何，而仿射或投影变换分别产生仿射和投影几何。

Erlangen program不仅对几何和数学影响非常深远，同时也影响了物理领域，对称性可以从第一原理推导守恒律，即Noether定理。

经过几十年的发展，直到杨振宁和米尔斯在1954年提出的规范不变性的概念的广义形式证明了这一基本原理，成功地统一了除重力以外的所有自然基本力。

这种标准模型已经描述了我们目前所知道的所有物理学知识。

所以啊，还是诺贝尔奖得主物理学家菲利普·安德森（Philip Anderson）的话说得好：

“it is only slightly overstating the case to say that physics is the study of symmetry.”

“说物理学本质上就是研究对称性的，这只是有点夸大其词了。”

目前深度学习领的现状和19世纪的几何情况惊人的类似：

一方面，在过去的十年中，深度学习带来了数据科学的一场革命，并完成了许多以前被认为无法实现的任务：无论是计算机视觉，语音识别，自然语言翻译，还是下围棋。

另一方面，现在存在一个针对不同类型数据的不同神经网络体系结构的“动物园”，但统一的原理很少。这样很难理解不同方法之间的关系，也导致相同概念的多次发明和资源的浪费。

在机器学习中，对称性的重要性实际上早已得到认可。

尤其是在模式识别和计算机视觉的应用中，有关等变特征检测的早期工作可以追溯到Shunichi Amari和Reiner Lenz。

在神经网络文献中，Marvin Minsky和Seymour Papert提出的感知器的群不变性定理对（单层）感知器学习不变性的能力提出了基本限制。

几何深度学习

具体怎么个“统一”，请看采用的“几何深度学习”：

几何深度学习是Michael M. Bronstein，Joan Bruna，Taco Cohen，Petar Veličković 等人中引入的一个笼统术语，指的是类似于Klein的Erlangen program，在几何机器学习上统一的尝试的总称。

它有两个目的：首先，提供一个通用的数学框架以推导最成功的神经网络体系结构；其次，给出一个建设性的过程，并以有原则的方式构建未来的体系结构。

在最简单的情况下，有监督的机器学习本质上是一个函数估计问题：给定训练集上某些未知函数的输出（例如标记的狗和猫图像），人们试图从某个假设函数类别中找到一个适合训练的函数f ，并可以预测以前看不见的输入的输出。

在过去的十年中，大型的、高质量的数据集（如ImageNet）的可用性与不断增长的计算资源（GPU）吻合，从而可以设计功能丰富的类，这些类可以内插此类大型数据集。

神经网络似乎是表征功能的合适选择，因为即使是最简单的体系结构（如Perceptron），仅使用两层时也可以生成密集类的功能，从而可以将任何连续函数近似为任何所需的精度，这种特性称为“通用逼近”（Universal Approximation）。

低维问题的设置是逼近理论中的经典问题，该问题已得到广泛研究，并通过精确的数学方法控制估算误差。但是，在高维度上情况却完全不同：人们可以很快地看到，即使近似一类简单的Lipschitz连续函数，样本数量也随维度呈指数增长，这种现象俗称“维数诅咒”。

由于现代机器学习方法需要处理成千上万甚至数百万个维度的数据，因此维度的诅咒总是在幕后出现，使得我们无法通过朴素的方式进行学习。

△维度诅咒的图示：为了近似由高斯核构成的Lipschitz连续函数，该函数位于误差为ε的d维单位超立方体（蓝色）的象限中，需要????（1 /εᵈ）个样本（红点）。

在计算机视觉问题（例如图像分类）中可能最好地看到了这一点。即使是很小的图像也往往具有很高的尺寸，但是从直观上讲，当人们将图像解析为向量以将其馈反馈送到感知器时，很多图像的结构会被破坏并丢弃。如果现在仅将图像移位一个像素，则向量化的输入将有很大的不同，并且神经网络将需要显示很多示例，因此必须以相同的方式对移位的输入进行分类。

原理简介

通过对称性，不变性和群的视角，包含两大原理：

“先验对称性”

在许多高维ML问题的情况下，我们可以采用一个附加结构信息，它来自输入信号的几何形状。我们称这种结构为“先验对称性”，它是一种普遍有效的原理，它使我们对由维数引起的问题感到乐观。在我们的图像分类示例中，输入图像x不仅是d维向量，而且是在某个域Ω上定义的信号，在这种情况下，该信号是二维网格。

域的结构由对称群变换????（在我们的示例中为一组二位变换-作用于域上的点。在信号????（Ω）的空间中，底层域上的群动作（群元素，????∈????）通过所谓的群表征ρ（????）来表示，在我们的例子中，上述操作是平移操作，即一个作用于d维向量的d×d矩阵。

输入信号底层的域的几何结构为我们试图学习的函数 f 的类别施加了架构信息。一个不变函数可以不受群的操作作用的影响，即对于任何????∈????和x，f（ρ（????）x）= f（x）。另一方面，函数可能具有相同的输入和输出结构，并且以与输入相同的方式进行转换，这种函数称为等变函数，即满足f（ρ（????）x）= ρ（???? ）f（x）。

在计算机视觉领域中，图像分类是一种典型的人们希望得到不变函数的任务（例如，无论猫位于图像的什么位置，我们都希望将该图分类为猫）；而图像分割任务的输出是一个像素级别的标签掩模，这是一种等变函数（分割掩模需要遵循输入图像的变化）。

“尺度分离”

另一个强大的几何先验是“尺度分离”。在某些情况下，我们可以通过“同化”附近的点并产生与粗粒度算子P相关的信号空间的层次结构，来构建域的多尺度层次结构（下图中的Ω和Ω’）。

在这些粗尺度上，我们可以应用粗尺度函数。我们分析出，如果一个函数 f 可以被近似为粗粒度算子 P 和粗尺度函数的组合 f≈f’∘P，则 f 是局部稳定的。尽管 f 可能取决于长距离依赖，如果 f 是局部稳定的，它们可以被分解为局部交互，然后向着粗尺度传播。

这两个原理为他们提供了一个非常通用的深度学习蓝图，可以在大多数用于表示学习的流行深度神经体系结构中得到认可：一个典型设计由一系列等变层（例如，CNN中的卷积层）组成，可能遵循通过不变的全局池层将所有内容聚合到一个输出中。在某些情况下，也可以通过一些采用局部池化形式的粗化过程（coarsening procedure）来创建域的层次结构。

这是一种非常通用的设计，可以应用于不同类型的几何结构，包括几何深度学习的“ 5G”（Grid,Groups,Graphs,Geodesics & Gauges）：网格（具有全局转换群的齐次空间），图形（以及特殊情况下的集合）和流形，几何先验通过全局等距不变性表示（可以使用测地学表示）和局部规范的对称性。

这些原则的实现导致了深度学习中当今存在的一些最流行的体系结构：从平移对称导出的卷积网络（CNN）、图神经网络、DeepSets和Transformers，实现了置换不变性，时间扭曲不变导出的门控RNN（例如LSTM网络），以及由规范对称性导出的计算机图形和视觉中使用的 Intrinsic Mesh CNN。

下一步他们还打算在“ 5G”上继续“几何深度学习”蓝图。

貌似高深的理论，用到了群论、微分几何和各类机器学习高级算法，期待有更多研究人员参与并开展进一步深入研究。

未来，也许整个深度学习“动物园”的在原理上的统一真的不是梦。

参考链接：
[1]https://towardsdatascience.com/geometric-foundations-of-deep-learning-94cdd45b451d
[2]https://arxiv.org/pdf/2104.13478.pdf

— 完 —