摘要

Transformer被认为是在有监督场景下，NLP和CV中占主导的神经结构。最近，在强化学习（RL）领域使用Transformers出现了类似的现象，但面临由RL特性所带来的独特设计选择和挑战。但是，RL中Transformers的演变路线尚未得到充分调研。因此，在本文中，我们试图系统地回顾RL中使用Transformers的动机和进步，以对现有工作提供参考，然后分别对每个子领域进行讨论并对未来的前景进行总结。

1.介绍

强化学习（RL）为序列决策提供了数学形式定义。通过使用RL，我们可以自动获取智能行为。尽管RL已经为基于学习的控制提供了一个通用框架，但深度神经网络的引入，作为一种具有高容量的函数近似方式，在广泛的领域中实现了重大进步。
　　尽管近年来，深度强化学习（DRL）的泛化性取得了巨大的发展，但样本效率问题阻止了其在现实世界应用中的广泛使用。为了解决这个问题，一个有效的机制是将归纳偏置引入DRL框架。DRL中的一个重要归纳偏差是函数近似器结构的选择，例如为DRL agent使用神经网络进行参数化。但是，与有监督学习（SL）中结构设计所做的努力相比，在DRL中的结构设计的问题仍然没有被充分探索。大多数现有的RL神经结构工作都是受半监督或有监督领域成功的启发。例如，在DRL中一种常见做法是通过引入卷积神经网络（CNN）来处理高维图像输入；另一种常见做法是引入循环神经网络（RNN）来处理部分可观测输入。
　　近年来，Transformer结构彻底改变了各种SL任务的学习范式，并表现出比CNN和RNN更出色的表现。在其一系列好处中，Transformer结构可建模长距离依赖并具有出色的扩展能力。受SL成功的启发，人们对将Transformer应用于强化学习的兴趣激增，并期望将Transformer的优势带入RL领域。
　　在RL中使用Transformer可以追溯到 Zambaldi et al. [2018b]，其中自注意力机制被用于与结构化状态表示一起进行关系推理。之后，许多研究人员试图将自注意力用于表示学习，以提取实体之间的关系以进行更好的策略学习。除了利用Transformer进行状态表示学习外，先前的工作还使用Transformer捕获多步骤的时间依赖性来处理部分可观测问题。最近，离线RL由于能够利用大规模离线数据集的能力而引起了人们的关注。在离线RL的启发下，最近的努力表明，Transformer结构可以直接建模序列决策，并推广到多个任务和领域。
　　这项调查的目的是对Transformers in Reinforcement Learning这一领域进行介绍，称为TransformRL。尽管当前大多数的SL研究中，Transformer已被认为是一个基础模型，但在RL领域中，对其探索仍然较少。实际上，与SL领域相比，在RL中使用Transformer作为函数近似器，面临着独特的挑战。首先，RL agent的训练数据通常是当前策略的函数，在Transformer学习过程中会导致不稳定。其次，现有的RL算法通常对训练过程的设计选择（包括网络结构和容量）是高度敏感的。第三，基于Transformer的结构通常会面临高计算和内存成本的损失，这在RL学习的训练和推理过程中都昂贵。例如，对于用于视频游戏的AI，样本生成的效率取决于RL策略网络和价值网络的计算成本，这在很大程度会影响训练性能。在本文中，我们寻求对TransformRL的全面概述，包括当前方法和挑战。我们还讨论了未来的方向，因为我们认为TransformRL领域将在释放强化学习的潜在影响方面发挥重要作用，这项调查可以为那些希望利用其潜力的人提供一个起点。
　　我们的论文结构如下：第2节涵盖了RL和Transformers的背景，然后简要介绍了这两者如何合并在一起。在第3节中，我们描述了RL中网络结构的演变以及Transformer在RL中被广泛探索的挑战。在第4节中，我们提供了RL中Transformer的各类方法，并讨论了代表性的现有方法。最后，我们在第5节中总结并指出潜在的未来方向。

2.Problem Scope

2.1 Reinforcement Learning

通常，强化学习（RL）通过马尔可夫决策过程（MDP）进行学习，即 M = < S , A , P , r , γ , ρ 0 > \mathcal M=<\mathcal S,\mathcal A,P,r,γ,ρ_0> M=<S,A,P,r,γ,ρ0>，其中 S \mathcal S S和 A \mathcal A A分别表示状态空间和动作空间， P ( s ′ ∣ s , a ) P(s'|s,a) P(s′∣s,a)是状态转移矩阵， r ( s , a ) r(s,a) r(s,a)是奖赏函数， γ ∈ ( 0 , 1 ) γ∈(0,1) γ∈(0,1)是衰减因子， ρ 0 ρ_0 ρ0是初始状态分布。通常，RL的目的是学习一个策略 π ( a ∣ s ) π(a|s) π(a∣s)，以最大化期望累计衰减奖赏 J ( π ) = E π , P , ρ 0 [ ∑ t r ( s t , a t ) ] J(π)=\mathbb E_{π,P,ρ_0}[\sum_tr(s_t,a_t)] J(π)=Eπ,P,ρ0[∑tr(st,at)]。该领域有许多重要主题，例如meta RL，mtulai-task RL和multi-agent RL。在下面内容中，我们介绍了RL中与Transformers相关的几个特定的RL问题。
　　Offline RL。在offline RL中，agent在训练期间不允许与环境交互。取而代之的是，它只可以访问由任意策略收集的静态离线数据集 D = { s , a , s ′ , r ) } \mathcal D=\{s,a,s',r)\} D={s,a,s′,r)}。无需探索，现在的离线RL方法会限制学习的策略接近数据分布，以避免导致较差的泛化能力，从而发生OOD问题。最近，与经典的基于值的方法类似，离线RL的一种流行趋势是通过有监督学习（RvS），以产生所需的行为。
　　Goal-conditioned RL。Goal-conditioned RL (GCRL) 将标准RL问题扩展到了目标增强设置，agent的目标是学习一个以目标为条件的策略 π ( s ∣ d , g ) π(s|d,g) π(s∣d,g)，其能够完成多种目标。先前的工作提出使用各种技术，例如hindsight relabeling，同一价值函数和自模仿学习，以提高GCRL的泛化能力和样本效率。GCRL非常灵活，因为目标有多种选择。对于有关该主题的更详细描述，请参考[Liu et al., 2022] 。
　　Model-based RL。与直接学习策略和价值函数的模型无关的RL相反，基于模型的RL去学习用于模拟环境的辅助动态模型。这种模型可以直接用于计划算法，也可以用作生成器以生成虚拟轨迹并扩大任何模型无关算法的训练数据。学习这种模型是非常重要的，尤其是在我们首先需要构建状态表示的大型或部分可观测的环境中。一些最近的方法提出使用潜在动态或价值模型来应对这些挑战并提高RL的样本效率。

2.2 Transformers

Transformer是建模序列数据最有效，最可扩展的神经网络之一。Transformers的关键思想是结合自注意力机制，该机制可以有效地捕获长序列的相互依赖性。正式地，给定一个具有 n n n个字符的序列输入 { x i ∈ R d } i = 1 n \{\textbf x_i\in\mathbb R^d\}^n_{i=1} {xi∈Rd}i=1n，其中 d d d是嵌入维度，通过线性变换，自注意力层将每个字符 x i \textbf x_i xi映射到一个query q i ∈ R d q \textbf q_i∈\mathbb R^{d_q} qi∈Rdq，一个key k i ∈ R d k \textbf k_i∈\mathbb R^{d_k} ki∈Rdk，以及一个value v i ∈ R d v \textbf v_i∈\mathbb R^{d_v} vi∈Rdv，其中 d q = d k d_q=d_k dq=dk。分别将序列输入，query，key和value表示为 X ∈ R n × d , Q ∈ R n × d q , K ∈ R n × d k , V ∈ R n × d v \textbf X∈\mathbb R^{n×d},\textbf Q∈\mathbb R^{n×d_q},\textbf K∈\mathbb R^{n×d_k},\textbf V∈\mathbb R^{n×d_v} X∈Rn×d,Q∈Rn×dq,K∈Rn×dk,V∈Rn×dv。自注意力层的输出 Z ∈ R n × d v \textbf Z∈\mathbb R^{n×d_v} Z∈Rn×dv是所有value的加权总和：
Z = s o f t m a x ( Q K T d q ) V . \textbf Z=softmax\bigg(\frac{\textbf Q\textbf K^T}{\sqrt{d_q}}\bigg)\textbf V. Z=softmax(dq QKT)V.
　　除了自注意力机制外，还有其它技术，例如多头注意力以及残差链接。Transformers能够学习到丰富的表示并建模长距离依赖。

2.3 Combination of Transformers and RL

　　我们注意到，越来越多的工作正在寻求以各种方式组合Transformers和RL。通常，Transformers可以用作RL算法的一个组件，例如表示模块或动态模型。Transformers还可以对整个序列决策过程进行建模。图1提供了Transformers在RL场景下扮演不同角色的草图。

3.Network Architecture in RL

在介绍当前TransformRL方法的类别之前，我们首先回顾RL中网络结构设计的早期进展，并总结其挑战。之所以这样做，是因为Transformer本身是一个较为先进的神经网络，并且设计适当的神经网络有助于DRL的成功。

3.1 Architectures for function approximators

自从开创性工作Deep Q-Network被提出，许多努力已致力于开发针对DRL agent的网络结构。RL中网络结构的改进可以主要分为两个类。第一类是设计一种结合RL归纳偏差的新结构，以减轻策略或价值函数训练的难度。例如，Wang et al. [2016] 提出针对状态值函数和状态依赖动作优势函数的dueling网络结构。这种结构的选择结合了归纳偏差，可以在各种类型动作间进行学习。其他示例包括用于单个agent或子奖赏的学习局部Q值的价值分解网络。第二类是研究神经网络的通用技术（例如，正则化，skip-connect，BN）是否可以应用于RL。仅举几例，Ota et al. [2020] 发现，在使用在线特征提取器来提高状态表示方面，增加输入维度有助于提高DRL算法的性能和样本效率。 Sinha et al.[2020] 为DRL agent提出了一个深度密集的结构，同时使用skip-connect进行有效学习，并具有归纳偏差来减轻数据处理的低质量问题。Ota et al. [2021] 使用具有解藕表示学习的DenseNet来改善大网络的信息流和梯度。最近，由于Transformers的出色性能，一些研究人员试图将Transformers应用在策略优化算法中，但发现原始Transformer设计无法在RL任务中实现期望的性能。

3.2 Challenges

在过去几年中，尽管基于Transformer的网络结构在SL域中取得了迅速的进展，但在RL中应用它们并不简单。实际上，其存在一些独特的挑战。
　　一方面，从RL的角度来看，许多研究人员指出，现有的RL算法对深度神经网络的结构非常敏感。首先，在RL中，数据收集和策略优化之间选择的范式（即数据分配变化）在训练过程中会引起不平稳性。其次，RL算法通常对训练过程中的设计选择高度敏感。特别是，当与bootstrapping和离线策略学习相结合，且价值估计无边界时，使用函数近似的学习可能会多样化（即“deadly triad”）。最近，Emmons et al. [2021] 确定模型结构的详细选择和正则化对于DRL agent的性能至关重要。
　　另一方面，从Transformers的角度来看，基于Transformer的结构会面临较大内存使用和高延迟的影响，这阻碍了其有效的部署和推理。最近，许多研究人员旨在基于原始Transformer结构上围绕计算和内存效率进行改进，但其中大多数工作侧重于SL域。在RL领域，Parisotto and Salakhutdinov [2021] 提出将学习过程从大容量的基于Transformer的学习器模型蒸馏到小容量的actor模型，以绕过Transformers的高推理延迟。但是，这些方法在内存和计算方面仍然很昂贵。到目前为止，在RL领域中尚未有对高效或轻量级Transformers进行全面探索的想法。

4.Transformers in RL

　　尽管在大多数有监督学习研究中，Transformers已成为基础模型，但由于上述挑战，它在RL领域中并未被广泛使用。实际上，TransformRL的大多数早期尝试都将Transformers应用于状态表示学习或提供记忆信息，同时仍将标准RL算法应用于agent学习，例如时间差分学习和策略优化。
　　因此，尽管将Transformers作为函数近似器来引入，但这些方法仍然受到常规RL框架的挑战。直到最近，离线RL使从大规模离线数据中学习最佳策略成为可能。受到离线RL的启发，最近的工作进一步将RL问题视为具有固定经验的条件序列建模问题。通过这种方式，它有助于绕过传统RL中bootstrapping错误的挑战，从而使Transformers结构能够释放其强大的序列建模能力。
　　在本论文中，我们回顾了TransformRL的进步，并提供了一种分类法以介绍当前方法。我们将现有方法分为四个类：表示学习，模型学习，序列决策和通才agent。图2提供了分类草图，其中包括相应工作的子集。

4.1 Transformers for representation learning

考虑到RL任务的序列建模性质，使用Transformer编码器模块是合理的。实际上，RL任务中需要处理各种序列，例如局部时间序列（多实体序列，多agent序列），时间序列（轨迹）等。
　　Encoder for local per-timestep sequence
　　该方法早期的成功体现在使用Transformers从散布在agent观测中的变量实体中处理复杂信息。Zambaldi et al. [2018a] 首先提出，以多头点积注意力来捕获结构化观测的关系推理，随后在AlphaStar中也使用了该方法，以在充满挑战的多agent星际争霸II环境中处理多实体观测。在这样的机制（称为entity Transformer）中，观测结果以下面形式编码：
E m b = T r a n s f o r m e r ( e 1 , . . . , e i , . . . ) , Emb=Transformer(e_1,...,e_i,...), Emb=Transformer(e1,...,ei,...),
其中， e i e_i ei表示agent在第 i i i个实体上的观测，该观测要么从整个观测中被划分，要么是一个实体token。
　　若干后续工作使用了丰富的实体Transformer机制。Hu et al. [2020] 提出了一项兼容的解耦策略，以将动作显式关联到各个实体，并利用注意力机制进行策略解释。为了解决具有挑战性的one-shot视觉模仿，Dasari and Gupta [2021] 使用Transformer学习关注特定任务元素的表示。
　　与散布在观测中的实体相似，一些工作利用Transformer来处理其他局部时间序列。Tang and Ha [2021] 利用了Transformer的注意力机制来处理感官序列，并构建与输入相关的策略。在不兼容的多任务RL中，提出了Transformer来提取形态领域知识。
　　Encoder for temporal sequence
　　同时，使用Transformers处理时间序列也是合理的。这种时间编码器可作为记忆结构工作，
E m b 0 : t = T r a n s f o r m e r ( o 0 , . . . , o t ) , Emb_{0:t}=Transformer(o_0,...,o_t), Emb0:t=Transformer(o0,...,ot),
其中， o t o_t ot表示agent在时刻 t t t的观测， E m b 0 : t Emb_{0:t} Emb0:t表示从初始观测到当前观测的历史嵌入序列。
　　在早期工作中，Mishra et al. [2018] 无法使用原始Transformers处理时间序列，并且在某些特定任务中发现它比随机策略还差。Gated Transformer-XL（GTrXL）是第一个使用Transformer作为存储架构以处理轨迹的有效方案。GTrXL使用Identity Map Reordering修改了Transformer-XL结构，以提供一个从时间输入到Transformer输出的“skip”路径，这可能会导致稳定的训练过程。此外，Loynd et al. [2020] 提出了一种具有长期依赖记忆向量的快捷机制，Irie et al. [2021] 将线性Transformer与Fast Weight Programmers相结合，以提高性能。此外，Melo [2022] 提出使用自注意力机制模仿记忆，以恢复memory-based meta RL。
　　随着记忆长度和参数量的增长，Transformer的表现优于LSTM/RNN，但面临着使用RL反馈信号的数据效率差的问题。后续工作利用了一些辅助（自）监督的任务或使用预训练Transformer，以使学习更容易。

4.2 Transformers for model learning

除了将Transformer用作序列嵌入的编码器外，Transformer结构还可在某些基于模型的算法中用作环境模型的主结构。与以单步观测和动作为条件的预测不同，Transformer使环境模型能够以一定长度的历史信息为条件预测转移过程。
　　实际上，Dreamer和随后算法的成功证明了在部分可观测的环境或某些要求记忆机制的任务中，以历史为条件的世界模型的好处。一个以历史为条件的世界模型由一个捕获抽象信息的观测编码器和学习潜在空间转移的转移模型组成，可形式化为：
z t ∼ P e n c ( z t ∣ o t ) z ^ t + 1 ∼ P t r a n s ( z ^ t + 1 ∣ z ≤ t , a ≤ t ) r ^ t + 1 ∼ P t r a n s ( r ^ t + 1 ∣ z ≤ t , a ≤ t ) γ ^ t + 1 ∼ P t r a n s ( γ ^ ∣ z ≤ t , a ≤ t ) , \begin{array}{cc} z_t\sim P_{enc}(z_t|o_t)\\ \hat z_{t+1}\sim P_{trans}(\hat z_{t+1}|z_{\le t},a_{\le t})\\ \hat r_{t+1}\sim P_{trans}(\hat r_{t+1}|z_{\le t},a_{\le t})\\ \hat \gamma_{t+1}\sim P_{trans}(\hat \gamma|z_{\le t},a_{\le t}), \end{array} zt∼Penc(zt∣ot)z^t+1∼Ptrans(z^t+1∣z≤t,a≤t)r^t+1∼Ptrans(r^t+1∣z≤t,a≤t)γ^t+1∼Ptrans(γ^∣z≤t,a≤t),
其中 z t z_t zt表示观测 o t o_t ot的潜在嵌入， P e n c , P t r a n s P_{enc},P_{trans} Penc,Ptrans分别表示观测编码器和转移模型。
　　在以前的一些工作中，开始尝试用Transformer结构而不是RNN来构建世界模型。具体，Chen et al. [2022] 用基于Transformer的模型（Transformer State-Space Model, TSSM）替换Dreamer中基于RNN的循环状态空间模型（RSSM）。 IRIS（(Imagination with autoRegression over an Inner Speech）仅通过在回滚经验集合上进行自回归，来学习一个基于Transformer的世界模型，而没有使用像Dreamer这样的KL损失来平衡，并在Atari 100k基准上取得了较好的结果。
　　此外，有些工作还尝试具有计划的基于Transformer的世界模型。Ozair et al. [2021] 通过Transformer转移模型验证计划的效果，以解决需要长期历史的随机任务。Sun et al. [2022] 提出了一个以目标为条件的基于Transformer的转移模型，该模型可有效地针对程序任务进行视觉计划。
　　RNN和Transformer都对学习以历史信息为条件的世界模型兼容。但是，Micheli et al. [2022] 发现Transformer结构与Dreamer相比是一个更具数据效率的世界模型，TSSM的实验结果表明，在需要长期记忆的任务中，Transformer结构是更合理的的。实际上，尽管基于模型的方法具有更高的数据效率，但它们会随着模型回滚长度的增加产生累积预测误差，这极大地影响了性能和限制模型回滚长度。因此，保持较长序列的预测准确性是有价值的，基于Transformer的世界模型在这一方面是有利的。

4.3 Transformers for sequential decision-making

除了作为一种表示结构插入传统RL算法外，Transformer本身还可以直接作为序列决策模型。这是因为RL可以看作是条件序列建模问题，可以生成一系列具有高回报的动作。
　　Transformers as a milestone for offline RL
　　在RL中广泛使用Transformers的一个挑战是，训练过程中的不稳定性可能会阻碍其优化。但是，离线RL最近的兴起激发了越来越多的工作来关注Transformer模型的训练，以实现最优的性能。Decision Transformer（DT）首先通过将RL作为自回归生成问题进行建模来生成所需的轨迹：
τ = ( R ^ 1 , s 1 , a 1 , R ^ 2 , s 2 , a 2 , . . . R ^ T , s T , a T ) , \tau=(\hat R_1,s_1,a_1,\hat R_2,s_2,a_2,...\hat R_T,s_T,a_T), τ=(R^1,s1,a1,R^2,s2,a2,...R^T,sT,aT),
其中 R ^ t = ∑ t ′ = t T r ( s t ′ , a t ′ ) \hat R_t=\sum^T_{t'=t}r(s_{t'},a_{t'}) R^t=∑t′=tTr(st′,at′)是累积奖赏。通过在第一个时刻以适当目标返回值为条件，DT可以生成期望动作，而无需显式的RD学习或动态设计。另外一个同期工作，Trajectory Transformer (TT) 采用了类似的Transformer结构，但提出在执行过程中使用集束搜索进行计划。经验结果表明，TT在长视野预测上表现更好。此外，TT表明，通过对原始集束搜索进行轻度调整，TT可以在同一框架下进行模仿学习，以目标条件的RL和离线RL。关于行为克隆情况，Behavior Transformer (BeT)提出了类似的Transformer 结构，以从多模态数据集中学习。
　　鉴于Transformer在序列预测上的超高精度，Bootstrapped Transformer (BooT)被提出以生成数据，同时优化其自身以进行序列决策。BooT用于数据增强可以扩大离线数据集的数量和覆盖范围，从而实现了性能的改善。更具体地，BooT通过比较不同的数据生成方案和引导方案，以分析BooT如何使策略学习受益。结果表明，它可以生成与基础MDP一致的数据，而无需其他显式的保守约束。
　　Different choices of conditioning
　　虽然以累积奖赏为条件是纳入未来轨迹信息的一种实用选择，但一个自然的问题是其他类型的未来信息是否可以使序列决策受益。为此，Furuta et al. [2021] 提出了Hindsight Information Matching (HIM)，这是一个统一的框架，可以对hindsight RL问题的变体进行形式化。更具体地说，HIM转换hindsight RL，以更匹配任意未来轨迹信息的预定义统计。此外，这项工作提出了对统计数据的任意选择的广义DT（GDT），并证明了其在两个问题中的应用：离线多任务态状态边界匹配和模仿学习。
　　具体而言，以累积奖赏为条件的一个缺点是，它将导致随机环境中的次优动作。这是因为由于变换的随机性，训练数据可能包含次优的动作，这些动作都具有较高的奖赏。 Paster et al. [2022] 在 general RvS 方法中确定此限制。他们进一步将RvS形式化为HIM问题，并发现如果信息统计数据独立于转移的随机性，RvS策略可以实现一致性。基于这一含义，他们提出了environment-stochasticity-independent的表示（ESPER），这是一种算法，该算法首先对轨迹聚类并估算每个集群的平均奖赏，然后训练以期望奖赏为条件的策略。另外，Dichotomy of Control (DoC) 提出学习一种表示，这是通过最小化环境中随机转移和奖赏的互信息。在推理期间，DoC选择具有最高价值的表示形式，并将其带入条件策略。
　　除了探索不同的事后信息外，增强累积奖赏条件的另一种方法是增加数据集。Q-learning DT（QDT）提出使用约束的价值函数来重新标记在数据集中累积奖赏，因此将DT与动态编程结合并提高了其组合能力。
　　Improving the structure of Transformers
　　Extending DT beyond offline RL

4.4 Transformers for generalist agents

由于Decision Transformer已经通过离线数据在各种任务中证明其有效性的事实，因此有一些工作开始考虑Transformers是否可以使通才agent能够解决多任务或多问题，例如在CV和NLP领域中。
　　Generalize to multiple tasks
　　Generalize to multiple domains

5.Summary and Future Perspectives

A Survey on Transformers in Reinforcement Learning翻译相关推荐

Dota 2 with Large Scale Deep Reinforcement Learning翻译
摘要 2019年4月13日,OpenAI Five成为第一个在电子竞技游戏中击败世界冠军的AI系统.Dota2游戏为AI系统提供了新的挑战,例如长时间相关的视野,不完全的信息和复杂的连续状态动作空间, ...
深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述作者: Kai Arulkumaran, Marc Peter Deisenroth ...
分层强化学习综述：Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
Deep Reinforcement Learning: Pong from Pixels翻译和简单理解
原文链接: http://karpathy.github.io/2016/05/31/rl/ 文章目录原文链接: 前言 Policy-Gradient结构流程图 Deep Reinforcement ...
[论文翻译]DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning 0 总结名称项目题目 DeepPath: A Re ...
《Deep Reinforcement Learning for Autonomous Driving: A Survey》笔记
B Ravi Kiran , Ibrahim Sobh , Victor Talpaert , Patrick Mannion , Ahmad A. Al Sallab, Senthil Yogama ...
[论文翻译]Actor-Attention-Critic for Multi-Agent Reinforcement Learning
Hi,论文翻译仅供参考,想了解细节还是建议阅读原文论文链接:Actor-Attention-Critic for Multi-Agent Reinforcement Learning 引入注意力机制 ...
IN-CONTEXT REINFORCEMENT LEARNING WITH ALGORITHM DISTILLATION翻译
摘要我们提出了Algorithm Distillation (AD),这是一种通过因果序列模型对其训练历史进行建模,从而将强化学习(RL)算法蒸馏到神经网络中.Algorithm Distillat ...
【论文翻译|2021】A survey on heterogeneous network representation learning 异构网络表示学习综述
文章目录摘要 1引言 2 相关工作 3 相关概念 4 分类 4.1 异构信息网络表示方法概览 4.2 异构信息网络嵌入算法的分类 4.3 基于路径的算法 4.3.1 传统的机器学习 5 讨论 5.1 ...

A Survey on Transformers in Reinforcement Learning翻译

摘要