水木番 发自 凹非寺
量子位 报道 | 本文转自公众号 QbitAI

你能想象某一天打开深度学习的词条,发现:

深度学习的江湖已经能够被统一了吗?

几何学上的对称性可以玩转整个深度学习吗?

通过对称性和的变换,可以提炼出覆盖CNNs, GNNs, LSTMs, Transformers, DeepSets, mesh CNN等一切你所需构建的架构吗?

不要惊讶,不要怀疑。

一百多年前埃尔兰根大学一位23岁的小伙就给出了答案。

他仅凭一己之力开创的“埃尔兰根计划”,从而在几何学上做出了一项开创性的工作,改变了数学史。

几何学对称问题的源起

在1872年10月,德国的埃尔兰根大学任命了一位新的年轻教授。按照惯例,他被要求提供一个就职研究计划,他以长而乏味的标题Vergleichende Betrachtungen über neuere geometrische Forschungen(“对几何学最新研究的比较评论”)进行了发表。

这位就是菲利克斯·克莱因(Felix Klein),当时他只有23岁,他的开创性工作被称为“埃尔兰根计划”,在数学史上有浓墨重彩的一笔。

十九世纪简直就是几何学的大爆发时代。欧几里得之后的近两千年来,庞塞莱特(Poncelet)构造了投影几何,高斯(Gauss)、波利亚伊(Galys)和洛巴切夫斯基(Lobachevsky)构造了双曲线几何,而黎曼(Riemann)构造了椭圆几何。

克莱因的Erlangen program(埃尔兰根纲领)的突破性体现在研究几何学时运用了结构的对称性。克莱因采用群论的形式来定义此类转换,并采用群及其子群的层次结构来分类由此产生的不同几何形状。

因此,刚性运动会产生传统的欧几里得几何,而仿射或投影变换分别产生仿射和投影几何。

Erlangen program不仅对几何和数学影响非常深远,同时也影响了物理领域,对称性可以从第一原理推导守恒律,即Noether定理。

经过几十年的发展,直到杨振宁和米尔斯在1954年提出的规范不变性的概念的广义形式证明了这一基本原理,成功地统一了除重力以外的所有自然基本力。

这种标准模型已经描述了我们目前所知道的所有物理学知识。

所以啊,还是诺贝尔奖得主物理学家菲利普·安德森(Philip Anderson)的话说得好:

“it is only slightly overstating the case to say that physics is the study of symmetry.”

“说物理学本质上就是研究对称性的,这只是有点夸大其词了。”

目前深度学习领的现状和19世纪的几何情况惊人的类似:

一方面,在过去的十年中,深度学习带来了数据科学的一场革命,并完成了许多以前被认为无法实现的任务:无论是计算机视觉,语音识别,自然语言翻译,还是下围棋。

另一方面,现在存在一个针对不同类型数据的不同神经网络体系结构的“动物园”,但统一的原理很少。这样很难理解不同方法之间的关系,也导致相同概念的多次发明和资源的浪费。

在机器学习中,对称性的重要性实际上早已得到认可。

尤其是在模式识别和计算机视觉的应用中,有关等变特征检测的早期工作可以追溯到Shunichi Amari和Reiner Lenz。

在神经网络文献中,Marvin Minsky和Seymour Papert提出的感知器的群不变性定理对(单层)感知器学习不变性的能力提出了基本限制。

几何深度学习

具体怎么个“统一”,请看采用的“几何深度学习”:

几何深度学习是Michael M. Bronstein,Joan Bruna,Taco Cohen,Petar Veličković 等人中引入的一个笼统术语,指的是类似于Klein的Erlangen program,在几何机器学习上统一的尝试的总称。

它有两个目的:首先,提供一个通用的数学框架以推导最成功的神经网络体系结构;其次,给出一个建设性的过程,并以有原则的方式构建未来的体系结构。

在最简单的情况下,有监督的机器学习本质上是一个函数估计问题:给定训练集上某些未知函数的输出(例如标记的狗和猫图像),人们试图从某个假设函数类别中找到一个适合训练的函数f ,并可以预测以前看不见的输入的输出。

在过去的十年中,大型的、高质量的数据集(如ImageNet)的可用性与不断增长的计算资源(GPU)吻合,从而可以设计功能丰富的类,这些类可以内插此类大型数据集。

神经网络似乎是表征功能的合适选择,因为即使是最简单的体系结构(如Perceptron),仅使用两层时也可以生成密集类的功能,从而可以将任何连续函数近似为任何所需的精度,这种特性称为“通用逼近”(Universal Approximation)。

低维问题的设置是逼近理论中的经典问题,该问题已得到广泛研究,并通过精确的数学方法控制估算误差。但是,在高维度上情况却完全不同:人们可以很快地看到,即使近似一类简单的Lipschitz连续函数,样本数量也随维度呈指数增长,这种现象俗称“维数诅咒”。

由于现代机器学习方法需要处理成千上万甚至数百万个维度的数据,因此维度的诅咒总是在幕后出现,使得我们无法通过朴素的方式进行学习。

维度诅咒的图示:为了近似由高斯核构成的Lipschitz连续函数,该函数位于误差为ε的d维单位超立方体(蓝色)的象限中,需要????(1 /εᵈ)个样本(红点) 。

在计算机视觉问题(例如图像分类)中可能最好地看到了这一点。即使是很小的图像也往往具有很高的尺寸,但是从直观上讲,当人们将图像解析为向量以将其馈反馈送到感知器时,很多图像的结构会被破坏并丢弃。如果现在仅将图像移位一个像素,则向量化的输入将有很大的不同,并且神经网络将需要显示很多示例,因此必须以相同的方式对移位的输入进行分类。

原理简介

通过对称性,不变性和群的视角,包含两大原理:

“先验对称性”

在许多高维ML问题的情况下,我们可以采用一个附加结构信息,它来自输入信号的几何形状。我们称这种结构为“先验对称性”,它是一种普遍有效的原理,它使我们对由维数引起的问题感到乐观。在我们的图像分类示例中,输入图像x不仅是d维向量,而且是在某个域Ω上定义的信号,在这种情况下,该信号是二维网格。

域的结构由对称群变换????(在我们的示例中为一组二位变换-作用于域上的点。在信号????(Ω)的空间中,底层域上的群动作(群元素,????∈????)通过所谓的群表征ρ(????)来表示,在我们的例子中,上述操作是平移操作,即一个作用于d维向量的d×d矩阵。

输入信号底层的域的几何结构为我们试图学习的函数 f 的类别施加了架构信息。一个不变函数可以不受群的操作作用的影响,即对于任何????∈????和x,f(ρ(????)x)= f(x)。另一方面,函数可能具有相同的输入和输出结构,并且以与输入相同的方式进行转换,这种函数称为等变函数,即满足f(ρ(????)x)= ρ(???? )f(x)。

在计算机视觉领域中,图像分类是一种典型的人们希望得到不变函数的任务(例如,无论猫位于图像的什么位置,我们都希望将该图分类为猫);而图像分割任务的输出是一个像素级别的标签掩模,这是一种等变函数(分割掩模需要遵循输入图像的变化)。

“尺度分离”

另一个强大的几何先验是“尺度分离”。在某些情况下,我们可以通过“同化”附近的点并产生与粗粒度算子P相关的信号空间的层次结构,来构建域的多尺度层次结构(下图中的Ω和Ω’)。

在这些粗尺度上,我们可以应用粗尺度函数。我们分析出,如果一个函数 f 可以被近似为粗粒度算子 P 和粗尺度函数的组合  f≈f’∘P,则  f 是局部稳定的。尽管 f 可能取决于长距离依赖,如果 f 是局部稳定的,它们可以被分解为局部交互,然后向着粗尺度传播。

这两个原理为他们提供了一个非常通用的深度学习蓝图,可以在大多数用于表示学习的流行深度神经体系结构中得到认可:一个典型设计由一系列等变层(例如,CNN中的卷积层)组成,可能遵循通过不变的全局池层将所有内容聚合到一个输出中。在某些情况下,也可以通过一些采用局部池化形式的粗化过程(coarsening procedure)来创建域的层次结构。

这是一种非常通用的设计,可以应用于不同类型的几何结构,包括几何深度学习的“ 5G”(Grid,Groups,Graphs,Geodesics & Gauges):网格(具有全局转换群的齐次空间),图形(以及特殊情况下的集合)和流形,几何先验通过全局等距不变性表示(可以使用测地学表示) 和局部规范的对称性。

这些原则的实现导致了深度学习中当今存在的一些最流行的体系结构:从平移对称导出的卷积网络(CNN)、图神经网络、DeepSets和Transformers,实现了置换不变性, 时间扭曲不变导出的门控RNN(例如LSTM网络),以及由规范对称性导出的计算机图形和视觉中使用的 Intrinsic Mesh CNN。

下一步他们还打算在“ 5G”上继续“几何深度学习”蓝图。

貌似高深的理论,用到了群论、微分几何和各类机器学习高级算法,期待有更多研究人员参与并开展进一步深入研究。

未来,也许整个深度学习“动物园”的在原理上的统一真的不是梦。

参考链接:
[1]https://towardsdatascience.com/geometric-foundations-of-deep-learning-94cdd45b451d
[2]https://arxiv.org/pdf/2104.13478.pdf

Amazing! 从“几何深度学习”看深度学习江湖的统一相关推荐

  1. 从“几何深度学习”看深度学习江湖的统一

    2021-05-03 13:30:54 水木番 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你能想象某一天打开深度学习的词条,发现: 深度学习的江湖已经能够被统一了吗? 几何学上的对称性可以 ...

  2. 从OpenAI看深度学习研究前沿

    版权说明:本文为原创文章,未经作者允许不得转载. 1 前言 想必很多知友都知道OpenAI这家初创公司.OpenAI是2015年底刚成立的人工智能公司,由Elon Musk领投,号称有10亿美金的投资 ...

  3. 从2019 AI顶会最佳论文,看深度学习的理论基础

    2020-01-27 13:15:38 如果能有一种理论告诉我们什么样的模型架构.运算方式能最好地表示某种数据,什么样的损失函数.迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意 ...

  4. 【深度学习看手相】台湾学生获奖 AI 项目是科学还是伪科学?

    AI的颠覆已经蔓延到了"看相界":从不久前闹得沸沸扬扬的人脸识别定罪犯,到最近的看人脸断贫富,再到今天要介绍的"深度学习看手相". 近日,台湾大学举办的一场黑客 ...

  5. 【深度学习看手相】台湾学生获奖 AI 项目是科学还是伪科学? 搜狐科技 08-06 12:44 1新智元报道 来源: medium,facebook 编译:胡祥杰 张易 【新智元导读】本周日带来一个有

    [深度学习看手相]台湾学生获奖 AI 项目是科学还是伪科学? 搜狐科技 08-06 12:44 1新智元报道 来源: medium,facebook 编译:胡祥杰 张易 [新智元导读]本周日带来一个有 ...

  6. 机器学习、深度学习、神经网络学习资料集合(开发必备)

    最近整理了下AI方面的学习资料,包含了学习社区.入门教程.汲取学习.深度学习.自然语言处理.计算机视觉.数据分析.面试和书籍等方面的知识.在这里分享给大家,欢迎大家点赞收藏. 学习社区 神力AI(MA ...

  7. 保证为正数 深度学习_深度学习:让数学课堂学习真正发生

    在21世纪核心素养中,深度学习能力是公民必须具备的生活和工作能力,发展深度学习是当代学习科学的重要举措,是深度加工知识信息.提高学习效率的有效途径.深度学习也称深层学习,是美国学者Ference Ma ...

  8. [学习SLAM]深度学习+视觉SLAM 的可行性/方向

    时间:2019.07 作者:干磊 背景:本文统计的是2018年及以前的相关论,未涉及2019年的论文. 1,深度学习+SLAM的可行性 长期来讲,深度学习有极大可能会去替代目前SLAM技术中的某些模块 ...

  9. 什么是深度学习?45分钟理解深度神经网络和深度学习 刘利刚教授

    什么是深度学习? - 45分钟理解深度神经网络和深度学习 刘利刚 中国科学技术大学图形与几何计算实验室 http://staff.ustc.edu.cn/~lgliu [绪言] 近年来,人工智能(Ar ...

最新文章

  1. Dart Metadata 使用
  2. Java读取resource文件/路径的几种方式
  3. AngularJS特性
  4. 谈CRM产品设计的指导思想
  5. 解决 No projects are available for deployment to this server!
  6. 微服务架构工作笔记002---了解Isito新一代微服务架构-服务网格
  7. c语言发牌小游戏,大家想想怎么用c实现我们经常玩的斗地主游戏的发牌过程呢?...
  8. 学习日记-wps表格 工资条的制作
  9. 中国电信封锁用户80系列端口及应对办法
  10. JavaSE就业班四----数据库Oracle和JDBC
  11. 原生js写简易别踩白块儿
  12. 论文阅读笔记《Learning for Disparity Estimation through Feature Constancy》
  13. 关于微信公众号页面获取code进行微信授权登录
  14. 顶级域名后缀有哪些?这份科普请好好收藏!
  15. marquee 的浏览器兼容性
  16. mysql之间互相订阅_Mysql分区报错,另外小说订阅表如何优化?
  17. 高红梅:第三章 海明威社会身份的定位 第一节 文学梦与作家身份的认同
  18. 免费的C++库—备用记录
  19. 方向标Directional Sign
  20. deepin运行qq音乐

热门文章

  1. oracle删除过期数据语句
  2. 搭建Maven父子项目结构
  3. win10/win11更新后没有声音,音频服务未响应
  4. 程序员自学成才指南﹣老程序员四条自学经验
  5. EasyNVR EasyNVS 视频监控系统测试部署文档
  6. C++语言程序设计全真模拟试卷,《C++语言程序设计》模拟试卷
  7. node JS獲取GPS_「前端篇」node_modules 困境
  8. python爬虫(五):实战 【2. 爬创客实验室(requests + bs4)】
  9. 2022-2028年中国多功能电动护理床行业市场发展潜力及投资风险预测报告
  10. GPT:Generative Pre-Training