来源:混沌巡洋舰  

记忆是人类智能的关键,我们因为记忆可以把过去和当下整合成为一体, 并且可以预测未来。记忆不仅是一个信息承载的工具, 更是世界模型的本体, 它无时无刻不在刻画未来, 也被当下影响, 可以说, 没有记忆,就没有智能。

然而当下深度学习模型有关记忆的模型确是一大空缺, RNN模拟了神经网络通过循环传递导致的信息缓存效应(类似人与人之间互相喊话来留存信息),而LSTM利用输入门和遗忘门进一步加强了这个机制引入了更加可控的信息暂留机制。基于NTM的模型把过去的信息和常识存储在类似硬盘的存储器里,网络只需要学习读和写。而transformer类模型把这种根据当下的信息索引既往的信息的能力加强到极致,某种程度,它们绕开了基于问题,而是机械的把所有的信息一次并行的输入到模型里, 由于可以微分的强大注意力机制, 使得它们的能力被广为使用。

我们说生物系统与之不同的是, 记忆不是为了存储而是为了预测(The hippocampus as a predictive map - Kimberly L. Stachenfeld),这点尤其体现在模仿海马体的模型里。生物系统的灵活记忆机制纳入到系统里,就需要模拟大脑, 尤其是生物系统的海马体。

一种经典的理论认为海马体是感知信息进入生物长期记忆的门户,信息在这里被类似 “指针”一样的东西索引起来, 这个指针既可以是基于时间(情景记忆)也可以是基于空间(空间关系记忆-place cells), 这两种思想激发除了研究海马体记忆的两个流派, 一路强调空间,认知地图和关联记忆, 而另一路则强调时间,时间序列和情景记忆。

我们且看第一支空间认知地图。

这种理论发挥的极大成者是:

The Tolman-Eichenbaum Machine: Unifying Space and Relational Memory through Generalization in the Hippocampal Formation

这篇文章把海马在空间导航的作用直接推广到了认知推理模型, 文章试图将海马体中的grid cell, place cell,memory cell 应用到非空间的任务中。这种思路事实上很早由Grid Cells的发现人之一 Edvar Moser 提出, 认为大脑对空间的表示不仅是导航任务的承载,而且还是更广阔的思维推理的承载(cognitive space),这就好比我们经常用空间来隐喻各种事物,比如颜色空间, 味道空间。而Tolman-Eichenbaum Machine则把空间本身也拓展到了不同的几何结构,如树结构。

首先,文章抓住了空间导航问题的解法的关键, 那就是空间结构和视觉物体感知的解耦,因为无论人如何更换自己所在的地方, 你的空间导航能力实际上是不编的, 你在伦敦某购物中心的导航能力可以直接迁移到上海。本质上空间是不变的, 变化的是地面的视觉物体和感知。这个解耦的背后,是把导航分解成X(感知信号), P(“地点“), M(记忆),G(空间结构)的符号体系。

X作为感觉信息的载体,是在不同小任务里被替换的, G是在一些导航任务里不变的结构体,它决定了每个action如何导致下一个状态, 而M是对不同P的记忆, 当再次经过某个地点的时候, 这个吸引子会召回以往的经历。这个解耦的结果是, agent可以通过一次在环境里的地点遍历,一个O(N)过程, 就轻松掌握了在任意两个地点寻找”短路路径的能力“

要知道这个能力 如果纯靠统计学习, 需要一个对所有可能路径的遍历, N^2以上的数据量, 这种神奇的过程叫做结构学习或remapping, 它对应一种快速的类比能力。

实现这种功能最有趣的其实是 Place cell,它是一种抽象的概念符号, 它代表一个完整的可提取的“Scene” (我们理解为若干感官组合成的符号图)和更抽象的结构的一个挂载关系,可以被随时学习和定义, 是深度学习所不具备的。

而节点和节点之间的抽象结构关系由“action” 介导, 我们管这类关系导致的状态变化叫路径积分, 它包含了回环不变性等特殊的约束。事实上这种关系结构背后包含了对世界的因果结构一些基本的先验。而且。我们可以想到这样的结构不仅有空间,事实上这篇文章对不同的抽象结构, 如树结构, 环行结构都做了实验, 发现了可泛化的能力。我们会发现具备通用性的结构在世界上可行的。比如树可以代表家族树也可以代表学科结构, 树上的关系(action),比如父亲的父亲是爷爷,可以用之四海。

最后值得一提的是Memory Cell , 我们都知道海马是短期记忆形成的基础 。这里的Memory cell是利用Tensor Product Relation建立的hopfield 网络,代表不同地点细胞间的连接权重。通过吸引子的动力学实现信息提取, 也就是一个迭代的微分方程,它就是associative memory的本体 。看似是记忆,这个M实则用于预测和生成 ,到达一个新的位置的时候,它都用来唤醒跟那个位置或地标相近的记忆。

这篇文章的缺点是它的实验任务相对较为简单, 训练结构过于复杂也不标准,而事实上有一个和它非常神似的模型在深度学习的推理任务处于霸榜的位置, 这就是:

Self-Attentive Assocative Memory

这篇也是2020的新作, 并且在facebook Babi AI语言推理任务目前处理领先的位置, 同时它可以解决各类图上的搜索优化任务, 和一些简单的RL任务。它所使用的模型类似TEM,但是训练流程更标准化。文章的名字顾名思义,也是基于关联记忆, 而前面的self attentive 则更像是transformer系列的注意力 , 事实上这个作品也如同它们的混合。

首先, 它也用到了类似TEM的解耦思想, 把任务分解为objects和relation(类似于structure)两部分,然后这两部分均使用了associative memory的机制。但是它没有使用难以训练的吸引子, 而是直接使用带有类似transformer的k,q, v形式的向量外积形式作为存储的起点,使得模型更加易于训练

这里的q,k, v分别为

从形式上它很想自注意力, 唯一的区别是那个乘号, 这使得它的力量根源, 这就是向量外积, 事实上这意味着它不是仅仅的点乘, 而是乘之后的结果把前后两个向量的每个bit之间的interaction都保留了下来。 这使得这个张量本身保留了两个向量的所有信息, 方便之后轻松的提取出来,这个tensor就在一定程度上具备了关联记忆的属性 。

而这个作品厉害的地方在于它用关联记忆不仅表达了感知object的局部和整体的关系, 也表达了object 和object之间的关联, 这个关联被一个称为SAM的Tensor Product保存下来 代表了所有物体(节点)和物体(节点)之间的关联。可以随着时间演进而不停的演化(记忆的本质),使得它是一个被动态构建的关系图, 比如如果输入是一段文字,那么随着阅读它会逐步丰富所有的人物关系图。同时, 这里的object记忆和relation记忆是互相矫正的, 类似于从object记忆提取的信息可以帮助构建relation记忆。

这个模型的Relation Memory 实则可以理解为动态更新的超图,它的每一层图代表不同 的relation(比如人物之间的私人关系和工作关系)。

这个网络被用来做自然语言的,以及和图有关的推理任务都取得良好成绩,因为记忆和推理的关系是不言而喻的。当你某一天看见个女人带着孩子, 转天看到她和一个男人一起, 你会立刻推出男人是孩子的父亲,就是一个例子。

而关于海马体的另一系列工作围绕振子,共振和时间序列。这看起来和第一个系列的工作像是另一个空间 。为什么会有这个系列的工作是因为除了认知地图外海马的另一个重要功能是情景记忆, 而情景记忆的形成经常伴随着脉冲神经元各种形式的震荡, 比如著名的theta进动。

一篇文章,把这种振动和海马体的单样本学习记忆能力(看一次就把信息烧到记忆系统里)联系起来。且看这篇文章

The Dance of the Interneurons: How Inhibition Facilitates Fast Compressible and Reversible Learning in Hippocampus

这里说的是不同的抑制性神经元相互配合来实现这功能的,具体来说, 就是把海马体看做一个时间系列的发生机器, 它自己内部可以发生大量的自发的振动(theta sequence), 这些内部存储的“序列” 通过和外界输入信息的时间序列相互挂载,从而把我们当下的信息很快和自身存在的某些pattern建立联系(好比同一个旋律挂上不同的音符或歌词),从而不需要很大的功夫就可以把它记住,这或许也是为什么我们觉得这个世界上大部分东西都似曾相识。

那么这个序列模板是怎么建立的呢?这就和刚刚说的的“振子”系统密不可分。海马体内的脉冲神经元相当于频率稍有不同的振子,但是这些振动通常很快,比如周期几十毫秒, 这与我们日常生活的时间尺度相差甚远。然而通过物理里的干涉现象,这些振动的叠加会产生一个极慢的时间尺度, 从而匹配我们日常生活的时间尺度。同时这个过程也产生一系列依次发放的细胞基团, 这些基团就是所谓的海马“time cells" 。当一个外界的输入信息流过, 这些基团也依次被激活, 这个激活轨迹就像雪地上的足印被学习记下来,并可以被读出, 被称为可以挂载当下的信息的记忆”印迹“细胞,这个挂载的过程,也是hebbian学习的过程。

虽然海马体的这两部分工作看起来是完全不相关的,但是它们背后其实反应了一种共同的认知本质, 它就是variable binding。第一系列的工作里我们把任务里的物体和结构进行了解耦从而构建出对应某个特殊任务的模型。而在第二个系列的任务里,海马体细胞的自发活动构成一个个和时间相关的占位符,在真实的任务中,具体的感知信息通过填入这些占位符而立刻获得了一种模型结构,也可以被马上关联起来记住。

它们都体现了生物大脑是一系列先验模型的总和,它们甚是先天具备的, 而在后天的经历和探索过程中,这些模板被激活,成为对现实世界进行实例化的“超类“ , 把真实世界的零碎信息裹挟成可以做generation和inference的runtime model, 从而实现了认知的基础- 这样的思想究竟可否用于当下的人工智能呢?

Variable Binding, 是智能可以泛化的一大核心秘密

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

海马体启发的记忆模型相关推荐

  1. 【Brain】大脑里也有个Transformer!和「海马体」机制相同

    来源: 墨玫人工智能 [导读]Transformer模型性能强的原因是模拟了人脑? 我不能创造的,我也不理解. --费曼 想要创造人工智能,首先要理解人类的大脑因何有智能. 随着神经网络的诞生及后续的 ...

  2. 大脑里也有个Transformer!和「海马体」机制相同

      新智元报道   编辑:LRS [导读]Transformer模型性能强的原因是模拟了人脑? 我不能创造的,我也不理解. --费曼 想要创造人工智能,首先要理解人类的大脑因何有智能. 随着神经网络的 ...

  3. 神经科学领域重大突破,港大科学家揭海马体新功能

    来源:神经科技 概要:香港大学研究团队在神经科学领域取得重大突破,揭示大脑中一个重要区域 - 海马体的新功能. 香港大学研究团队在神经科学领域取得重大突破,揭示大脑中一个重要区域 - 海马体的新功能. ...

  4. 大脑中的学习机制: 海马体与新皮层构成的互补学习系统

    写这篇文章的原因是基本没有关于中文大脑互补学习系统(complementary learning systems)的文章.应该说有很多关于互补学习系统的英文论文,这里也是一个总结加一点自己的见解,具体 ...

  5. 人类海马体中缓慢的Theta-gamma相幅耦合支持新的情景记忆的形成

    相幅耦合(PAC)被认为是一种协调脑区信息加工的神经机制.在这里,我们试图描述在形成新的情景记忆的过程中,在人类海马体.颞叶和额叶皮质中的PAC.56名神经外科患者学习和回忆单词列表时的颅内记录显示, ...

  6. 多域海马体分割的对抗性持续学习

    持续学习所面临的挑战是:防止数据灾难性的遗忘 导致灾难性遗忘的主要原因是:多重的域数据来自不同的域,为了合理地用来自多个域的数据来解决一个任务,模型必须以一种领域不变的方式进行适应和学习. 解决方法是 ...

  7. 睡眠期间人类海马体中缓慢振荡、纺锤波和波纹的分层嵌套

    在系统层面的巩固过程中,最初依赖于海马体的记忆表征被认为会迁移到新皮层以进行更永久的存储,睡眠在促进这种信息传递方面起着重要作用.巩固过程被假设依赖于表征非快速眼动(NREM)睡眠的三种基本神经元振荡 ...

  8. 如何判断LSTM模型中的过拟合和欠拟合 By 机器之心2017年10月02日 11:09 判断长短期记忆模型在序列预测问题上是否表现良好可能是一件困难的事。也许你会得到一个不错的模型技术得分,但了解

    判断长短期记忆模型在序列预测问题上是否表现良好可能是一件困难的事.也许你会得到一个不错的模型技术得分,但了解模型是较好的拟合,还是欠拟合/过拟合,以及模型在不同的配置条件下能否实现更好的性能是非常重要 ...

  9. 深度学习:长短期记忆模型LSTM

    http://blog.csdn.net/pipisorry/article/details/78361778 LSTM模型 长短期记忆模型(long-short term memory)是一种特殊的 ...

  10. U-Net:大脑MRI海马体语义分割

    文章目录 Step 01 数据集 Step 02 自定义Dataset Step 03 构建U-Net网络 Step 04 训练与预测 相关技术:Python.Pytorch.U-Net Step 0 ...

最新文章

  1. EOS共识机制——DPoS代理权益证明
  2. 本年度最成功科技IPO企业之一:Twilio股票一月暴涨167%
  3. android 缓存文件的工具类,总结的一些android公共库,包含缓存(图片缓存、预取缓存)、...
  4. VTK:几何对象之PlanesIntersection
  5. segue和delegate实现两个页面传值
  6. 数论三之排列组合Ⅱ——Virus Tree 2,RGB Coloring,123 Triangle,排列计数,排队,卡农
  7. 从分布式锁角度理解Java的synchronized关键字
  8. KlayGE 3.10.0发布!
  9. Linux操作系统原理与应用09(完):设备驱动
  10. 不失真截取PDF中的矢量图到Word里
  11. DB2 DIgits函数用法
  12. 计算机专业考研电路原理,2016年南开大学综合基础课(模拟电路、数字电路、计算机原理)考研试题.pdf...
  13. 430单片机 反汇编 逆向 c语言代码,MSP430单片机hex反汇编、反编译、代码分析
  14. 老电脑适合用linux,老旧电脑适于装什么操作系统
  15. gmx genion命令
  16. 第13届景驰-埃森哲杯广东工业大学ACM程序设计大赛 G 旋转矩阵(模拟)
  17. Verilog 实现千兆网UDP协议 基于88E1111--板级验证--增加ARP
  18. linux部署qq机器人记录
  19. 【产业互联网周报】外媒:英特尔等公司暂停向俄罗斯发货;阿里云季度营收195亿元;第四范式再次提交上市申请...
  20. jdk8+Windows10安装及环境变量配置

热门文章

  1. MySQL学习笔记(3)查询数据1
  2. 这程序还厉害的。。。
  3. quartz提示This scheduler instance is still active but was recovered by another instance in the cluster
  4. 2010计算机系助学金,计算机系贫困生助学金申请书
  5. ListView适配器
  6. 《Openwrt开发》第四章:newifi3 实现内网穿透(n2n)
  7. MySQL 性能分析之 EXPLAIN 关键字
  8. 大规模容器镜像管理方案
  9. 出现—passwd:Authentication token manipulation error—错误的解决办法
  10. 大动作,天津农学院专升本停招了吗