论文翻译与注释

原始论文： https://doi.org/10.1145/3411763.3451760
(2022/4/17 下午3:28:15)

注释
(2022/4/17 下午4:48:01)

(Reynolds 和 McDonell, 2021, p. 1) 将大型生成语言模型映射到有监督任务中的现行方法可能无法充分探测模型的新能力。以GPT-3为例，我们展示了零样本提示可以明显优于小样本提示。我们建议，在这些情况下，小样本例子的功能最好被描述为定位一个已经学会的任务，而不是元学习。这一分析促使我们重新思考提示在控制和评估强大语言模型中的作用。我们讨论了提示编程的方法，强调了通过自然语言的视角考虑提示的有用性。我们探讨了利用叙事和记忆锚的能力来编码细微的意图的技术，以及鼓励在产生决策之前将问题解构为组成部分的技术。在这种更全面的提示性编程理论的启发下，我们还引入了元提示的概念，该模型可以为一系列的任务生成自己的自然语言提示。最后，我们讨论了如何将这些与语言模型互动的更普遍的方法纳入现有和未来的基准和实际应用中。

(Reynolds 和 McDonell, 2021, p. 1) 动机：
最近大规模自监督语言模型的兴起，如GPT-3[3]，以及它们在下游任务上的成功，使我们离任务无关的人工智能系统的目标又近了一步。然而，尽管这类模型具有明显的力量，但目前控制它们执行特定任务的方法却极为有限。为了正确评估它们的能力并从这些模型中提取有用的工作，需要新的方法。
在GPT-3之前，评估和使用这类模型的标准方法是在一部分任务数据集上进行微调[12]。GPT-3在各种任务上取得了最先进的性能，无需微调，只使用了小样本提示，其中已解决的任务（的样本）的例子被提供给训练的模型作为输入。然而，虽然小样本的形式足以揭示这些任务的惊人表现，但我们认为，在从自我监督的语言模型中提取特定的学习行为方面，新的提示方法可能比微调或小样本的形式更有效。

与Brown等人[3]撰写的GPT-3原始论文标题: 语言模型是小样本学习者，所暗示的解释相反,我们认为GPT-3在运行期间往往不是从小样本中实际学习任务。与其说是指导，不如说该方法的主要功能是在模型的现有学习任务空间中进行任务定位。这一点可以从替代性提示的有效性得到证明，在没有例子的情况下，替代性提示可以引起与小样本格式相当或更高的性能。

这促使我们采取新的方法，明确地追求任务定位的目标。我们建议探索更普遍的提示编程方法，特别是将任务意图和结构传达给以自然语言为训练模式的自我监督模型的技术。除了一些注意事项外，我们希望找到我们期盼人类完成预期任务的方式的提示。
在这项工作中，我们研究了小样本学习的范式，并发现它的性能可以被简单的零样本提示所匹配或超越。我们探讨了成功的零样本提示的性质，并通过自然语言符号学的视角提出了提示编程的一般方法。我们展示了新的提示，它迫使语言模型在产生决策之前将问题分解成若干部分，我们还介绍了元提示编程的概念，这种方法将编写特定任务提示的工作转移给语言模型本身。最后，我们讨论了如何将这些想法纳入现有和未来的基准，以使我们能够更好地探测大型语言模型的能力。

“With a few caveats” (Reynolds 和 McDonell, 2021, p. 1)

(Reynolds 和 McDonell, 2021, p. 1) 最近的文献工作集中在使用机器学习的传统方法来控制自然语言的生成，如对输出进行条件控制的新型架构[15，16]，更先进的采样技术[6，11]，基于梯度的提示优化[17，22]，和特定任务的适配器网络[25]。关于这些最新方法的调查见[24]。过去的工作还探索了通过为每个任务动态地选择最相关的例子来改进小样本学习的范式[9, 18]。

相比之下，关于提示性编程的自然语言方法的工作很少被正式化。相反，成功的提示编程技术主要是在OpenAI的API和AI Dungeon用户的博客和社交媒体上分享。
由于大多数对提示性编程的探索都采取了分散的形式，我们在此汇编所有相关的贡献是不可行的。相反，我们给出了以下简短的、非详尽的探索，这些探索已经超越了小样本学习的范式。

G. Branwen通过演示GPT3写小说、诗歌和执行PDF清理等任务，对GPT3的能力进行了最全面的调查。他写了大量关于他使用GPT-3工作的直觉和他的提示编程方法的文章[2]。Sabeti写了关于提示所提供的环境对写作质量的影响[21]。Robertson写了关于通过对话来放大GPT-3的数学能力，引导它把问题分成几个步骤[20]。推特用户KaryoKleptid发布了类似的实验，使用对话提示GPT-3（通过AI Dungeon）将问题分解成步骤并遵循蛮力检查等程序[13, 14]，在数学问题上取得了令人印象深刻的结果。

我们的工作综合并扩展了这些探索所开创的方法，代表了向正式化有效的自然语言提示编程技术迈出的适度一步。

(Reynolds 和 McDonell, 2021, p. 2) GPT-3在有0、1和n shot 提示的任务上进行了评估（分别只包含自然语言描述、一个解决的例子和n个解决的例子）。当提供更多的例子时，GPT-3的表现始终较好，0-shot的表现往往取得不到多shot测试的一半的分数。对这一结果的一个常见解释是，GPT-3在运行时从实例中学习[3]。然而，这些性能的提高可以被解释为不是传统学习的结果，而是我们所说的任务定位机制的结果。

例如，对于某些任务，如翻译，少量的样本不足以学习关于任务的任何实质性内容。相反，GPT-3必须主要（如果不是完全）依赖其训练的权重中所包含的源语言和目标语言的词汇和语法知识。我们将明确表明，这些提示主要是引导模型访问现有的知识，而不是将这些任务视为少数的学习。我们通过研究例子（训练样本）是否有必要来做到这一点。

(Reynolds 和 McDonell, 2021, p. 2) 零样本提示的成功
由于预算限制，我们只探讨了一个说明性的例子，即法语到英语的翻译任务。我们发现，0-shot提示可以匹配甚至超过标准的小样本学习性能。我们在表1中的结果显示，Brown等人[3]所报告的0-shot的准确性可以通过轻微的提示工程而得到大幅改善。最重要的是，图1中极其简单的提示，只包括源语言和目标语言的名称，比原始GPT-3论文中10样本提示表现得更好。

我们相信这一现象在其他任务中也是如此，并导致GPT-3和类似模型的0-shot或基线性能被大大低估。更好地了解这些大型语言模型的能力对于有效控制它们是最重要的。GPT-3中包含的大量函数不需要在运行时学习，这使得0-shot提示具有很大的灵活性，并鼓励探索更普遍的提示编程方法。

(Reynolds 和 McDonell, 2021, p. 2) 表1中：我们报告了在WMT'14 Fr-En翻译任务[1]上使用不同提示格式的GPT-3的变体的BLEU分数，由SacreBLEU[19]测量。首先是原始GPT-3论文[3]中报告的关于GPT-3的6.7B和13B参数版本的结果，我们试图根据这些确切的规格使用OpenAI的API提供的Babbage和Curie模型来重现结果，最后是（图1,2）中描述的自定义提示的结果。重现结果的差异可能是由于OpenAI的API在他们的结果发表后的变化。由于API的限制，我们无法复制64次的测试，而是用10次的测试代替。

(Reynolds 和 McDonell, 2021, p. 2)

(Reynolds 和 McDonell, 2021, p. 3) 例子并不总是有用
在我们的实验中，简单的冒号提示（图1）与0-shot相比，1-shot的表现明显较差。通过检查GPT-3在这个任务上的输出，我们发现性能下降是由于1-shot例子的语义污染造成的。与其把例子当作分类指导，不如推断它们的语义与任务相关，例如，例子被解释为连续叙述的一部分。事实上，我们发现，在各种任务中，小样本提示的情况更普遍。这种来自小样本例子的污染效应已经被成功地用于提高GPT-3的性能，为每个任务选择上下文相关例子[18]。

（不准确的例子可能比没有例子更差，小样本的污染效应。）

(Reynolds 和 McDonell, 2021, p. 3) 提示编程：（自然语言编程）

重写提示可以使语言模型在任务中的表现发生重大变化。这就促使我们提出了一个问题。是否有一种方法，我们可以遵循它来制作更有可能产生预期行为的提示？

对于输入和输出都是自然语言的语言模型的提示工程，可以设想为用自然语言编程。然而，自然语言是不确定的，比传统的编程语言要复杂得多。在本节中，我们将对自然语言编程的理论和方法展开讨论。

(Reynolds 和 McDonell, 2021, p. 3) 语言的动态性：

为了了解如何提示自回归语言模型，我们必须首先考虑它的训练背景和它所近似的功能。

GPT-3是在一个自我监督的环境下，在数百GB的自然语言中进行训练的[3]。自监督是一种无监督学习的形式，其中真实标签来自于数据本身。在GPT-3的案例中，分配给每个例子的真实标签只是原始资料中的下一个标记。那么，GPT-3所近似的真值函数就是决定原始数据中下一个标记的基本动态性。这个功能，与GPT-3不同，不是一个黑盒子--我们生活和思考它的组成部分--但它是巨大的、难以解决的复杂。它是人类语言的功能，因为它已经被人类在书籍、文章、博客和互联网评论中使用和记录。

一个预测语言动态的系统必然包含了人类行为和物理世界的模型[8]。语言的动态 "不会脱离文化、心理和物理背景而漂浮，它不仅仅是一种语法甚至语义的理论。在这个意义上，语言不是一个抽象的概念，而是一个与人类相关的现实的所有方面纠缠在一起的现象。动态性必须预测语言的实际使用方式，这包括（比如）预测理论物理学家之间的对话。对语言进行建模就像对现实中可能影响语言流动的每一个方面进行建模一样困难。

如果我们要预测一个给定的文本段落在人类写下后会如何继续下去，我们就需要对其作者的意图进行建模，并纳入关于其所指的世界的知识。寻找一个能产生一个延续或一类延续的提示的逆向问题也涉及同样的考虑：就像说服的艺术一样，它需要高层次的心理学概念，如语气、暗示、联想、文化基因、风格、可信度和模糊性。

这就促使我们采用拟人化的方法来编写提示语，因为建立GPT-3对提示语的反应模型涉及到对虚拟人类作者的建模。拟人化的方法与模型的拟人化是不同的。GPT-3的动态需要对人类进行复杂的预测，但它的行为在几个重要方面与人类不同。在本文中，我们将讨论其中的两个方面：它不像一个单一的人类作者，而是一群作者的叠加，这促使了提示编程的减法方法（第4.5节），以及它在标记之间发生大量无声推理的情况下预测动态的能力受到限制，这一限制可以通过提示技术部分地克服（第4.6节）。

本节的主旨是，为自我监督的语言模型制定一个精确的提示编程理论，与写下可观察现实的物理学的哈密尔顿（非常困难）属于同一难度等级。然而，人类还是有优势可以有效地进行提示性编程，因为我们已经进化了，并花了一生的时间学习与手头的动态相关的启发式方法。提示编程是用自然语言编程，它为我们提供了取之不尽、用之不竭的功能，我们对这些功能非常熟悉，但却没有名称。我们需要学习一种新的方法，但方便的是，我们已经学会了最困难的基础。提示编程的艺术在于使我们现有的知识适应与自回归语言模型互动的特殊性。

在第4.2-4.7节中，我们介绍了一些方法和框架，我们发现这些方法和框架有助于制作有效的提示语。这些方法可以而且应该同时应用，就像它们在所有形式的人类话语中交织在一起一样。一般来说，加强所需行为的冗余度越大越好，这一点可以说是由小样本格式的有效性所证明的。

由于我们的经验主要来自与GPT-3的互动，在下面的章节中，我们直接或间接地提到了GPT-3的能力和行为。然而，我们相信，这些方法可以推广到提示任何在大规模人类写作语料库上训练的自回归语言模型。

(Reynolds 和 McDonell, 2021, p. 3) 直接的任务说明：构建标志物

由于对世界和人类概念的模型有限，GPT-3之前的模型理解抽象的任务描述的能力要小得多。GPT-3在0-shot提示上的令人印象深刻的表现表明了直接任务描述的一个新的可能性领域。

直接任务说明是一个0-shot提示，它告诉模型执行一项它已经知道如何使用该任务的标志物的任务。标识符是一种模式，它决定了预期的行为。它可以是任务的名称，如 "翻译"，也可以是一个复合描述，如 "重写这段话，让二年级的孩子也能理解，强调现实世界的应用"，或者是纯粹的上下文，如图1的简单冒号提示。
在这些情况下，标志器都没有解释如何完成任务或提供预期行为的例子；相反，它明确地或隐含地调用它认为语言模型已经学会的功能。
直接说明可以监督无穷无尽的隐含例子，就像一个无限序列的封闭式表达，使它们非常强大和紧凑。例如，"将法语翻译成英语 "这一短语监督着所有可能的法语短语与英语之间的映射列表。

一个大型的语言模型，就像一个人一样，也学会了一些行为，对于这些行为，如何构建一个直接的符号并不明显。通过示范（第4.3节）和代理（第4.4节）的任务说明可能是激发这些行为的可行的替代策略。

(Reynolds 和 McDonell, 2021, p. 4) 基于示范的任务规范

少量的例子对于任务规范来说是有效的，因为具有不同参数的函数的连续重复模式是自然语言中常见的。与以前的模型不同，GPT-3稳健地学习了语言的这一属性，并且能够在例子被剥离所有上下文的情况下应用它。与直接规范一样，通过演示进行任务规范也是GPT-3开启的一种可能性。

有些任务使用例子进行交流是最有效的，例如当任务需要一个定制的格式，描述例子的语言比描述任务本身所需的元语言更发达或更容易理解，或者有非常有指导意义的例子。然而，一般来说，例子在上下文中更有效率和信息量[23]。

(Reynolds 和 McDonell, 2021, p. 4) 通过记忆代理来进行任务说明
人类交流中使用的另一种方法是代理或类比，其中一个记忆概念，如一个人物或特征情况，被用来代理一个意图，后者可能是相当复杂或细微的。GPT-3显示了对类比的细微理解[23]。代理规范在机制上类似于直接规范，只是表示者从记忆空间/文化意识中键入行为，而不是直接命名行为。

例如，你可以问圣雄甘地、安-兰德或埃利泽-尤德考克斯，而不是直接指定回答道德问题的确切标准或使用例子。每个人不仅会有复杂的偏见，而且会有关于问题背景的假设，否则就会用几段话来证明或描述。GPT-3对知名人物的模拟和汲取文化信息的能力远远超过了大多数人的能力[2]，所以这种方法对编码复杂（尤其是开放式）的任务特别有用。由于GPT-3很适合在叙事背景下进行嵌入，叙事中的无限自由度也可以用来进一步塑造行为。

另一个有效代理的例子是上演老师和学生之间的对话。假设你想和GPT-3讨论一些事情，你关心的是，它应该非常彻底，简单地解释事情，而且还要在你错误的时候指出来。你可以说 "要非常彻底，简单地解释事情，如果我错了就指出来"，但这也可能导致一个幽默的对话，即它总是说你错了，并对你的不理解变得越来越气愤（见第4.5节）。更可靠的做法是将讨论呈现为学生和老师之间的讨论，这是一种典型的情况，在这种情况下，所需的属性已经隐含在其中，并且由于记忆的强化，将更有可能保持稳定。

(Reynolds 和 McDonell, 2021, p. 4) 作为制约行为的提示编程

像GPT-3这样的语言模型的天真拟人化失败的方式是这样的：对提示产生的概率分布不是一个人继续该提示的方式的分布，而是任何人都可以继续该提示的方式的分布。一个语境模糊的提示可能会以相互不一致的方式继续下去，就像不同的人在任何合理的语境下都可能继续该提示。

像GPT-3这样的大型生成模型的多功能性意味着，如果有各种可能继续提示的方式，它将以多种方式响应提示--包括人类操作者没有想到的所有方式。因此，从约束行为的角度来处理提示编程是很有帮助的：我们希望提示不仅与所需的延续行为一致，而且与不需要的延续行为不一致。

考虑以下提示：：

Translate French to English:
Mon corps est un transformateur de soi, mais aussi un transformateur pour cette cire de langage.

这个提示对预期任务的可能延续进行了很好的约束。最常见的失败模式将是，模型不是用英语翻译，而是用另一个法语句子继续。在法语句子后添加一个换行，将增加下一个句子是英语翻译的几率，但下一个句子仍有可能是法语，因为提示中没有任何内容可以排除一个多行短语成为翻译主题。将提示的第一行改为 "将这个法语句子翻译成英语 "将进一步提高可靠性，在法语句子周围加上引号也是如此。但是，法语段落仍然有可能包含被引号包围的部分，也许是对话的一部分。最可靠的是创建一个句法约束，任何合理的延续只能是期望的行为，就像图1中的简单冒号提示或图2中的主译员提示。

这个简单的例子是为了框定一个对提示编程的动机至关重要的问题：什么样的提示会导致预期的行为，而且只导致预期的行为？多次提示的成功可以通过这个角度来重塑：如果提示是由一个函数的许多实例组成的，那么除了这个函数的另一个实例之外，延续是不太可能的，而如果只有一个或几个实例，延续打破了模式就不太可信了。

(Reynolds 和 McDonell, 2021, p. 4) 对封闭式问题进行序列化推理
对于需要推理的任务来说，提示将语言模型的计算导向求真模式是至关重要的。
强制要求通过模型延续的第一个标记来决定裁决的问题，将计算限制在一个单一的前馈过程中。我们可以合理地预期，有些任务可能太难，无法在单一环节中计算，但如果分解成单独的可操作的子任务，则可以解决[2]。

当一个人被给予一个封闭式的测试时，我们通常期望受试者在承诺一个答案之前，会在他们的工作记忆中或在草稿纸上进行计算。不可见的计算可能涉及重新表述问题、概述程序、消除答案选择，或者将隐性信息转化为显性形式。当我们强迫一个模型在一次前馈过程中产生一个答案时，我们剥夺了它类似的 "工作记忆 "或 "划痕空间"，否则它可能会进行这种操作。

GPT-3在封闭式问题上的表现，与它的开放式连续问题所显示的理解力和广泛的知识相比，明显不值一提。例如，它在一个多任务数据集[10]上的得分在许多部分几乎没有超过随机猜测。我们怀疑这部分是由于它的格式迫使人们在续文的第一个符号上作出判断。

封闭式评估是必要的，因为目前的方法不支持对大型数据集的评估，也不支持使用开放式问题的模型之间的直接比较。然而，为了更好地理解一个模型的能力，我们寻求能够更好地反映被测系统全部能力的评价方法。与其改变基准，我们不如改变语言模型与之互动的方式。

这个问题在以前的工作中已经被认识到了，这些工作试图利用专门的神经网络架构来实现串行推理[7, 26]。我们努力只用提示性编程来获得同样的效果。

对于像GPT-3这样的转化器来说，利用 "划痕空间 "的潜在程序包括分步程序、自我批评（辩论），以及以一种通过联想激活正确答案的方式对问题进行阐述。导致GPT-3将数学问题分解成步骤的提示已经被证明是有效的[13, 20]。所引用的演示涉及一个人通过互动方式引导GPT-3的程序。要求人在回路中限制了这种基准测试和大规模应用方法的适用性，但我们提出，对于许多任务来说，人与人之间的互动和特定任务的提示对于通过扩展推理来放大GPT-3的能力都不是严格必要的，因为GPT-3已经知道许多程序和元程序来演绎地处理问题。在这些情况下，提示程序的作用再次成为标志着顺序推理的任务。像 "对于这样的问题，"这样的种子往往足以指示模型考虑任务的类别，并将其分析为组成部分，正如第4.7节所展示的那样。

当扩展推理时，必须阻止过早的判决，否则所有后续的计算只能使已经选择的判决合理化，而不能提高判决的准确性的概率[27]。诸如 "让我们考虑这些答案选择中的每一个 "这样的提示，有助于引导推理流向正确的方向。更多鼓励串行推理的提示的例子见第4.7节。

放宽对立即判决的约束会带来额外的控制挑战。我们想推迟判决，但我们仍然要求它可以通过程序检索。动态响应的长度使得推理过程何时结束变得不确定；也不能保证判决会以预期的形式或根本不存在。每当语言模型对自己的提示做出贡献时（连续的自回归步骤没有干预），就有可能脱离预定的任务。

一个封闭形式的决策可以通过停止生成并注入 "因此，正确答案是 "这样的提示片段来强制执行。但是在注入之前要生成多长时间呢？在本文所示的例子中，我们通过使用GPT-3来解决这个问题，在每个生成的标记之后计算多部分提示的下一个片段的条件概率。在该段为 "因此，正确答案是 "的情况下，它的反事实可能性发出了程序是否已经结束的信号。当这个信号达到最大值时，我们注入片段来强制执行决策。约束出轨的一种方法是用较短的生成部分的填空提示模板来保持模型的正常运行，同时还能提供通用性（图5）。这是一种特别有希望的方法，可以控制像BERT这样的双向Transformers[5]。

(Reynolds 和 McDonell, 2021, p. 5)

(Reynolds 和 McDonell, 2021, p. 5) 元提示编程：
提示程序设计的最大局限性是很难为特定类型的任务设计提示，而且缺乏自动化的方法来做到这一点。提示编程需要大量的人力时间投入，因为与任务无关的提示往往比针对特定任务的提示效果差很多。这就促使我们创造自动化的方法来生成特定任务的提示语。先前的研究已经尝试使用单独的模型来生成有效的提示[19]。
相反，我们建议通过元提示来利用语言模型本身，种子囊括了一个更普遍的意图，当与额外的信息（如任务问题）相结合时，将展开成一个具体的提示。

一个元提示可以是像 "这个问题要求我们 "这样的短语，它通过提示问题的意图，为解决这个问题的程序的连续解释奠定基础。或者，隐喻可以采取填空模板的形式，按照预先确定的程序限制回答，但允许模型填写问题的具体细节。

隐喻的例子（图4-6）是使用OpenAI的API（引擎=davinci，温度=0）用GPT-3生成的。在这些例子中，metaprompt充当了一个特定问题的 "包装"。任务问题是无格式化的，元提示是粗体的，GPT-3生成的文本是蓝色的。

(Reynolds 和 McDonell, 2021, p. 6)

(Reynolds 和 McDonell, 2021, p. 6) 未来研究方向：
本文是探索性的，是对未来提示性编程理论研究的呼吁。提示性编程是一个新生的、高度相关的研究领域，需要跨学科的知识和方法。我们正在进入一个新的人机交互范式，在这个范式中，任何精通自然语言的人都可以成为一个程序员。我们希望看到提示性编程本身成长为一门学科，并成为理论研究和定量分析的对象。

5.1 分离元学习和任务位置

在第3节中谈到的法语到英语的翻译所使用的评分方法（BLEU）只给出了大数据集上的平均分数。我们没有分析任何关于分数分布的额外信息。在我们的实验中，我们发现0-shot的失败（使用OpenAI的0-shot提示）往往是灾难性的。也就是说，翻译的任务甚至没有被尝试过。例如，我们注意到，模型并没有进行翻译，而是继续用法语说另一句话，或者输出空白或下划线，就好像答案要由学生来填写一样。

5.2 基准测试的新方法

更加普遍和强大的语言模型使得更广泛的基准测试方法成为可能和必要。

5.2.1 隔离灾难性的失败。我们建议，只要有可能将任务的失败尝试与未尝试任务的情况区分开来，基准就应报告有和无灾难性失败的分数。这提供了关于不完美性能的根本原因的信息，并有助于识别可能无法可靠地传达任务的提示。

5.2.2 评价的元提示。开发有效的元提示模板将允许对封闭式问题进行大规模的自动评估，这些问题仍然允许一定程度的开放式推理。这对于测试自回归语言模型的推理能力（例如，解决数学和物理问题）超越简单的事实回忆是至关重要的。

由于对多个自回归步骤的依赖，元语言模型在本质上伴随着脱轨的风险。一个元提示的可靠性和有效性必须在它可能适用的一系列任务上进行评估，最好是在一系列模型上进行评估。应该进一步探索控制脱轨的技术，如填空模板。

5.2.3 评价的语言模型。随着语言模型变得更加强大，使用其他语言模型来评估对开放式基准问题的回答的质量变得可以想象。对于许多任务（例如NP-complete问题），验证一个解决方案的正确性比产生一个正确的解决方案更容易。我们观察到，GPT-3在注意到一段话的怪异或包含错误时，比它能产生没有错误的非怪异的段落要可靠得多。

5.2.4 游戏。由于复杂的语言模型有能力创建虚拟环境的世界模型，我们建议采用基于文本的游戏作为复杂能力的测试。一个预先写好的基于文本的游戏[4]可以用来测试世界模型和代理的各个维度，如问题解决、信息收集和社会智能（包括欺骗）。虚拟环境可以用来测试语言模型的世界模型的质量和一致性，如物体的永久性或准确预测玩具环境中事件的物理或社会后果的能力。

设计能够可靠地探测预期能力的游戏需要先进的提示编程技术的应用。随着人工智能系统有效代理的增加，虚拟游戏的设计对于安全评估能力将变得越来越重要。