前面的自然语言生成技术现状调查：核心任务、应用和评估（1）_流萤数点的博客-CSDN博客

自然语言生成技术现状调查：核心任务、应用和评估（2）_流萤数点的博客-CSDN博客

自然语言生成技术现状调查：核心任务、应用和评估（3）_流萤数点的博客-CSDN博客

6.生成创意和娱乐文本

6.1生成双关语和笑话

6.2生成隐喻和比喻

6.3生成叙述

6.4创造语言：结束语

7.评价

7.1内在方法

7.1.1主观（人类）判断

7.1.2使用语料库的客观人像测量

7.1.3体裁兼容性和文体效果评估

7.2外在评价方法

7.3黑盒与玻璃盒评估

7.4论评价方法之间的关系

7.4.1衡量标准与人类判断

7.4.2使用受控实验

7.5评估：结论性意见

8.讨论和未来方向

8.1为什么（以及如何）使用NLG？

8.2NLG是否包括文本到文本？

8.3寻找应用的理论和模型？

8.4我们从这里走到哪里？

9.结论

6.生成创意和娱乐文本

“好”作家不仅以连贯、结构良好的散文表达自己的想法。他们还成功地通过叙事技巧保持了读者的注意力，偶尔也会让读者大吃一惊，例如，通过创造性的语言使用，如小笑话或恰当的比喻（例如，参见Flower&Hayes，1981；Nauman，Stirling，&Borthwick，2011；Veale&Li，2015）。到目前为止，本次调查中讨论的nlg技术和应用程序可以说在这个意义上无法模拟优秀的作者，因此自动生成的文本可能会被认为有些枯燥和重复。

nlg内部缺乏对语言生产的创造性方面的关注，并不是因为普遍缺乏对这些现象的学术兴趣。事实上，对创造力的计算研究有着悠久的传统，其根源可以追溯到ai的早期（正如Gerv´as，2013年所指出的，有记录以来的第一个故事生成算法Novel Writer由Sheldon Klein于1973年开发）。然而，可以公平地说，到目前为止，计算创造力和nlg社区的研究人员之间几乎没有互动，尽管我们认为这两个群体可以相互学习很多。

特别是，nlg研究人员将受益于对什么构成创造性语言生产的洞察，以及叙事的结构特征，这些特征有可能改善nlg输出，甚至在数据到文本系统中（参见Reiter，Gatt，Portet，&van Der Meulen，2008，关于医学文本生成系统的这一效果的论证）。同时，计算创造力的研究人员也可以从nlg社区提供的见解中受益，因为正如我们将看到的，这项研究的很多重点，尤其是在叙事方面，是计划的生成和内容的确定。

在下文中，我们概述了创造性语言生产的自动方法，从相对简单的笑话和隐喻开始，到更高级的形式，如叙事。

6.1生成双关语和笑话

考虑：

(31) What’s the difference between money and a bottom?
One you spare and bank, the other you bare and spank.
(32) What do you call a weird market?
A bizarre bazaar.

（31）钱和谷底有什么区别？一个你放掉了银行，另一个你光着屁股打屁股。

（32）你怎么称呼怪异市场？一个奇怪的集市。

这两个（很好！）双关谜语是由Binsted和Ritchie（19941997）开发的jape系统自动生成的。双关谜语形成了一种特定的笑话类型，在计算幽默的背景下受到了相当大的关注，大概是因为它们的定义相对简单，通常依赖于拼写或词义的歧义。许多人类制作的好例子都被收集在笑话书和网站上，因此可以作为灵感或训练数据的来源。

稍微简化一点，jape（Joke Analysis and Production Engine）依赖于一个基于模板的nlg系统，结合固定文本（X和Y有什么区别？或者你称X为什么？）有插槽，这是谜语的来源。各种标准词汇资源用于笑话制作，包括英国发音词典（查找发音相似的不同单词，如“奇异”和“集市”）和WordNet（Miller，1995，查找含义相似的单词，如集市和市场）。jape使用各种技术来创建双关谜语，例如并列，其中相关单词被简单地放置在彼此旁边，并被视为一个正常的结构，同时确保组合是新颖的（即，不在jape数据库中）。有趣的是，通过这种方式，jape可能会自动想出现有的笑话（谷歌快速搜索发现，存在许多奇怪的集市，以及集市奇观）。

继Binsted和Ritchie的开创性工作之后，还开发了各种其他可以自动生成笑话的系统，例如Stock和Strapparava（2005）的hahacronym系统，该系统产生幽默的首字母缩写，以及Binsted、Bergen和McKay（2003）的系统，这本书关注的是参考笑话的产生（“天气太冷了，我看到一位律师双手插在自己的口袋里。”）。

Petrovic和Matthews（2013）为这项早期工作提供了一个有趣的、无监督的替代方案，这项工作不需要标记示例或硬编码规则。与他们的前辈一样，Petroviic和Mattheys也从模板开始——在他们的情况下，我喜欢我的X，就像我喜欢Y，Z一样——其中X和Y是名词（例如，咖啡和战争），Z是属性（例如，冷）。显然，语言理解不是问题，但内容选择——找到“有趣”的X、Y和Z三元组——是一个挑战。有趣的是，作者为“好”三元组提出了一些指导原则。特别是，他们假设（a）如果属性Z可以用来描述名词X和Y，那么笑话更有趣；（b）如果属性Z既常见又模棱两可，则笑话更有趣；（c）X和Y越不相似，笑话越有趣。这三个语句可以根据标准资源进行量化，如Wordnet和Google n-gram语料库（Brants&Franz，2006），并使用这些度量其系统输出，例如：

(33) I like my relationships like I like my source, open.

（33）我喜欢我的关系，就像我喜欢我开放的源代码一样。

可以公平地说，迄今为止，计算笑话生成研究主要集中于揭示某些相对简单的双关语的基本结构，并利用这些结构取得良好效果（例如，Ritchie，2009）。然而，还有许多其他类型的笑话，通常需要复杂的假设推理。想必，在生成系统能够产生这些高级笑话之前，人工智能中的许多核心问题都需要先解决。

6.2生成隐喻和比喻

你是否认为某件事有趣可能是主观的，但无论如何，从笑话产生的见解可以作为更好地理解创造性语言使用的垫脚石，包括隐喻、明喻和类比。在所有这些情况下，在两个概念域之间进行映射，这样一来，源域中的术语就可以用来描述目标域，通常是以非文字的方式，这在计算机生成的文本中有助于说明复杂的信息。例如，赫维亚斯、佩雷拉、格维亚斯和卡多索（2006）研究了叙事语境中的类比，如卢克·天行者是绝地武士的亚瑟王，这立即为不知情的人澄清了卢克·天行者的一个重要方面。在一个比喻中，这两个域被比较（a'类似于B）；在一个比喻中，它们是相等的。笑话和隐喻/明喻是相关的：彼得罗维奇和马修斯自动生成的笑话与明喻相当，而基登和布鲁恩（2011）将识别双连词笑话的问题作为一种隐喻识别。然而，有人可能会认为，由于额外的趣味性限制，产生笑话更为复杂。

与计算幽默一样，自人工智能早期以来，隐喻性非文字语言的自动识别和解释受到了相当大的关注（参见Shutova，Teufel，&Korhonen，2012，概述）。例如Martin（19901994），着重于在Unix支持的上下文中对隐喻的识别，如以下示例所示：

(34) How can I kill a process?
(35) How can I enter lisp?

（34）如何终止进程？（35）如何输入口齿不清？

例如，第一种方法在“生命”（源）和“进程”（目标）之间进行映射，现在已经很常见了，几乎是一种死隐喻，但在Unix的早期并非如此。显然，理解隐喻是自动回答这些问题的先决条件。早期关于隐喻计算解释的研究已经认识到，隐喻依赖于被利用（“断裂”）来表达新含义的语义约定。因此，隐喻理解系统和隐喻生成系统需要了解什么是字面意义，以及如何将这些字面意义延伸或翻译成隐喻意义（例如，Wilks，1978；Fass，1991）。

Veale和Hao（20072008）最近的研究表明，这种知识可以从网络中获取，并用于生成新的隐喻和明喻（比较）。他们的系统被称为Sardonicus，能够为用户提供的目标（t）生成隐喻，如以下，表示Paris Hilton（“人，而不是酒店，尽管在Sardonius身上失去了区别”，Veale&Hao，2007年，第1474页）很瘦：

(36) Paris Hilton is a stick

（36）帕丽斯·希尔顿是一根棍子

Sardonicus在网络上搜索与瘦有关的名词（n），这些名词包含在一个案例库中，范围从杆子、铅笔、棍子到蛇和棍子昆虫。

根据Glucksberg（2001）的范畴包含理论，不合适的（如尸体）被排除在外。然后，受赫斯特（1992）工作的启发，这个潜在的明喻列表被用于创建谷歌查询，其形式为n-like t（例如，像帕丽斯·希尔顿一样的棒状昆虫，实际上出现在网络上），给出了要生成的潜在明喻的排名。

Veale（2013）使用了一种类似的技术来生成带有情感成分的隐喻，如“史蒂夫·乔布斯是一位伟大的领导者，但他可能是一位暴君”。谷歌的n-gram语料库用于寻找适合明喻生成的刻板印象（例如，“孤独的牛仔”），这是一种让人联想到使用网络规模n的策略−gram数据以平滑图像到文本系统的输出（参见第4节）。接下来，添加了一个情感维度，基于这样一个假设，即发生在结合中的属性（“郁郁葱葱、绿色如丛林”）比不发生的属性更有可能产生相同的影响。使用积极（如“快乐”、“美妙”）和消极（如“悲伤”、“邪恶”）种子，协调查询（如“幸福”和“X”）用于收集刻板印象的积极和消极标签，例如，表明婴儿与“微笑”和“可爱”等品质正相关，与“哭泣”和“流泪”负相关。这可以自动生成积极的（“像婴儿一样哭”）和消极的（“哭得像婴儿一样”）比喻。Veale甚至指出，例如，通过收集大量微软垄断的负面隐喻，并在一组预定义的比喻中使用这些隐喻，就可以自动生成一首诗，例如：

No Monopoly Is More Ruthless
Intimidate me with your imposing hegemony
No crime family is more badly organized, or controls more ruthlessly
Haunt me with your centralized organization
Let your privileged security support me
O Microsoft, you oppress me with your corrupt reign

没有垄断更无情

用你强大的霸权威逼我

没有犯罪家族组织得更糟糕，或控制得更残酷

用你的集权组织折磨我

让你的特权安全支持我

哦微软，你用你的腐败统治压迫我

事实上诗歌的自动生成是一个处于计算创造力和自然语言生成交叉路口的新兴领域（例如，参见Lutz，1959；Gerv´as，2001；Wong，Hon，&Chun，2008；Netzer，Gabay，Goldberg，&Elhadad，2009；Greene，Ave，Knight，&Rey，2010；Colton，Goodwin，&Veale，2012；Manurung，Ritchie，&Thompson，2012；Zhang&Lapata，2014，关于这一主题的变化）。参见Goncalo Oliveira（2017）的最新评论。

6.3生成叙述

计算叙事学关注叙事文本生成和解释的计算模型（例如，Gerv´as，2009；Mani，20102013）。许多叙事生成方法的出发点是一种来自古典叙事学的叙事观点，这是一个起源于形式主义和结构主义传统的文学研究分支（例如，Propp，1968；Genette，1980；Bal，2009）。该领域一直关注分析叙事的定义特征，如情节或人物，以及更微妙的特征，如时间和时间转移的处理、聚焦（即从特定角度向读者传达故事正在被叙述的能力），以及多个叙事线索以子情节的形式相互作用，最近的一个重要发展是，叙事学家有兴趣将认知科学和人工智能的观点引入他们的文学作品中，使这一领域成为多学科互动的成熟领域（特别是Herman，1997年、2007年；Meister，2003年，关于这方面的纲领性陈述以及理论贡献）。

古典叙事学对“故事世界”和叙述故事的文本进行了根本性的区分。根据这一传统的形式主义和结构主义根源，这种区别通常被表述为虚构（或故事）和suzjet（或话语）之间的二分法。这一区别与nlg中的文本计划与表达该计划的实际文本之间存在相似之处。然而，关键的区别在于，在为故事制定计划时，故事生成系统通常不会使用迄今为止大多数nlg系统所需的输入数据，因为故事通常是虚构的。另一方面，叙事学工具也成功地应用于现实世界的叙事，包括个人经验的口头叙事（例如，Herman，2001；Labov，2010）。

大多数关于叙事生成的工作都集中在前语言阶段，也就是说，在故事世界中为虚构叙事生成计划，通常是在一个结构属性被很好理解的特定体裁中，例如童话或亚瑟王传说（参见Gervás，2013年的评论）。然而，用于此类故事的技术与我们在上文中讨论的与nlg相关的技术之间存在联系（特别参见第3.2节）。其中最突出的是计划和推理技术，将创造性过程建模为解决问题的任务。例如，minstrel (Turner,1992)使用推理从作者的角度对创造力进行建模，根据作者的目标制定叙事计划，例如将戏剧引入叙事的目标，同时确保主题的一致性。

最近，布鲁特斯（Bringsjord&Ferrucci，1999）使用了一个故事图式的知识库，从中选择一个，并使用规划技术将因果联系起来（另见Young，2008；Riedl&Young，2010等，最近使用规划技术对叙事生成中的创作过程建模的例子）。

自动生成的叙述示例。左面板显示了TaleSpin（Meehan，1977）制作的一个故事的摘录；右面板是由故事书系统生成的小红帽童话的摘录（Callaway&Lester，2002）。

约翰熊有点饿。约翰熊想买些浆果。约翰熊想靠近蓝莓。

约翰·熊从山洞入口穿过山谷穿过草地，来到灌木丛。

约翰熊拿走了蓝莓。约翰熊吃蓝莓。蓝莓不见了。约翰熊不太饿。

从前，一位樵夫和他的妻子住在一座大森林边上的漂亮小屋里。他们有一个小女儿，一个可爱的孩子，每个人都很喜欢她。她是她母亲心中的快乐。为了取悦她，这位好女人给她做了一件红色的小斗篷和帽子。她穿上这件衣服很漂亮，大家都叫她小红帽。

正如Gerv´As（2010）所指出的，对故事世界规划和建模创意的关注往往意味着语言问题的侧重点，因此将故事计划转化为文本通常被视为次要考虑因素。例如，图7a显示了talespin系统（Meehan，1977）制作的一个故事的摘录：这里的重点是使用解决问题的技术来制作一个故事，其中事件以连贯的方式相互跟随，而不是以流畅的方式讲述。这一趋势的一个重要例外是Callaway和Lester（2002）的工作，他们明确指出了计算叙事学和nlg之间的差距。他们的系统以叙事计划为起点，但侧重于用流利的英语呈现叙事的过程，处理时间偏移、聚合、回指nps和许多其他语言现象，如图7b中的摘录所示。值得注意的是，Stock等人（2007年）在为便携式博物馆指南生成交互式文本的背景下重新使用了该系统。

此外，世代社群在与叙事相关的更具体问题上做出了许多贡献，例如如何传达叙事话语的时间流（Oberlander&Lascarides，1992；Dorr&Gaasterland，1995；Elson&McKeown，2010）。这是一个在nlg中值得更多关注的问题，因为具有复杂叙事结构的文本通常以不同的顺序叙述事件。例如，叙事或类似叙事的文本可以按重要性而非时间顺序叙述事件，即使这些事件基于真实世界数据（例如Portet et al，2009）。这使得正确选择时态状语、体状语和时间状语对于确保读者的清晰性至关重要。这种叙事结构的复杂性也出现在互动叙事小说中（例如，在游戏中；参见，Montfort，2007）。

除了关注特定的语言问题，还有一些工作利用数据驱动技术生成故事。例如，McIntyre和Lapata（2009）提出了一个故事生成系统，其输入是实体及其交互的数据库，通过解析、检索语法依赖关系和构建特定实体在其中发挥作用的事件链，从故事语料库中提取。结果是一个对事件的部分顺序进行编码的图，边缘由相互信息加权以反映节点之间的关联程度。然后，使用模板式语法规则进行句子规划，指定带有子类别信息的动词，然后使用realpro实现（Lavoie&Rambow，1997）。这部作品最有趣的特点之一是将生成模型与兴趣模型相结合，以预测哪些故事实际上会被读者评为有趣。这是通过训练一个基于内核的分类器来实现的，这是一部关于故事的浅层词汇和句法特征的小说，这部小说采用了叙事学中的一个老问题，即是什么使故事“可讲”，从而将其与单纯的报告区分开来（例如，Herman，1997；Norrick，2005；Bruner，2011）。

大多数故事生成工作仅限于（非常）短篇小说。诚然，按照上述思路规划一本书长度的叙事是极具挑战性的，但研究人员最近开始探索这种可能性，例如在NaNoGenMon（国家小说生成月）的背景下，参与者编写一个能够生成“小说”的计算机程序。也许最著名的例子是世界时钟（Montfort，2013），它描述了世界各地发生的1440（24×60）个事件，每次随机选择一分钟。这是前两个：

It is now exactly 05:00 in Samarkand. In some ramshackle dwelling a person
who is called Gang, who is on the small side, reads an entirely made-up word
on a box of breakfast cereal. He turns entirely around.
It is now right about 18:01 in Matamoros. In some dim yet decent structure
a man named Tao, who is no larger or smaller than one would expect, reads a
tiny numeric code from a recipe clipping. He smiles a tiny smile.

撒马尔罕现在正好是05:00。在一个摇摇欲坠的房子里，一个叫刚的人，站在狭小的一边，在一盒早餐麦片上读一个完全虚构的单词。他完全转过身来。

现在马塔莫罗斯大约是18:01。在一个昏暗但体面的建筑里，一个名叫陶的人，他并不比人们想象中的大或小，他从食谱剪辑中读取一个微小的数字代码。他微微一笑。

这本书完全由165行Python代码生成，作者在几个小时内完成了编写，随后由哈佛书店出版社出版（连同软件）。甚至还有波兰语翻译（Piotr Marecki），通过翻译原始算法的Python实现中使用的术语和短语而创建。

6.4创造语言：结束语

在本节中，我们重点介绍了创造性语言生成这一广泛领域的最新发展，这一主题在nlg中研究得相当少。尽管如此，我们想说，nlg研究人员可以通过从计算创造力中获取见解来提高他们的输出质量。

利用语料库和其他词汇资源自动生成笑话、双关语、隐喻和明喻的工作揭示了单词之间的不同联系方式，可以并列形成意想不到的，甚至可能是“有趣”或“诗意”的组合。例如，鉴于隐喻在日常语言中普遍存在（如Lakoff&Johnson，1980年所述），而不仅仅是在公开的创造性使用中，nlg研究人员对增强其模型的文本生成能力的可读性，尤其是可变性感兴趣，将从更仔细地研究诗歌、笑话和隐喻生成工作中受益。

同样，叙事学的研究也对单个叙事中多个线索的相互作用以及事件的选择和排序如何产生有趣的故事有着丰富的见解（例如，Gervás，2012）。例如，在时间和因果关系起作用的领域中，这些见解对于开发更精细的文本规划师是有价值的。同样，关于角色和聚焦的叙事工作也有助于开发更好的nlg技术，以根据特定观点改变输出，这是我们在第5节中提到的一个领域。

我们将关于创造性nlg评估的讨论推迟到第7节，第7节涉及总体评估。预计会有一些讨论，值得注意的是，对创造性语言生成的评估仍然是一个瓶颈。在一定程度上，这是因为在对创造性文本的评估中，要确定“正确”的问题并不总是那么容易。例如，在笑话和诗歌生成器的情况下，证明体裁兼容性和识别性（“这是一个笑话吗？”）可以说已经是一项成就，因为它表明一个系统正在生产符合规范预期的人工制品（这将在下文第7.1.3节中进一步讨论）。在其他类型的创造性语言生成中，评估更具挑战性，因为如果不确保生成过程的各个层面（从规划到实现）的质量，很难进行评估。例如，在叙事生成的情况下，如果将重点完全放在故事规划上，如果故事规划采用过于简单的实现策略（如图7a所示），则叙事的感知质量将受到影响。这是一个领域的共识，即需要进一步的研究工作（参见朱，2012，最近对此的论点）。这也是nlg可以为计算创造力研究人员提供很多潜在帮助的一个领域，包括使用技术流畅一致地呈现文本，促进对人类受试者生成的人工制品的评估。

7.评价

尽管我们已经在不同的点上触及了评估的主题，但它作为一个已经成为nlg中的中心方法论关注的主题值得充分讨论。促成这一发展的一个因素是建立了许多nlg共享任务，这些任务是在2007年在弗吉尼亚州举办的nsf资助的研讨会之后启动的（Dale&White，2007）。这些任务侧重于参考表达的生成（Belz等人，2010；Gatt&Belz，2010）；表面实现（Belz、White、Espinosa、Kow、Hogan和Stent，2011）；在虚拟环境中生成指令（Striegnitz、Gargett、Garoufi、Koller和Theune，2011；Janarthanam和Lemon，2011）；含量测定（Bouayad Agha等人，2013；Banik，Gardent，&Kow，2013）；和问题生成（Rus、Piwek、Stoyanchev、Wyse、Lintean和Moldovan，2011）。最近针对新挑战的提议将其扩展到叙事生成（Concepción、Méndez、Gervás和León，2016）、结构化网络数据生成（Colin、Gardent、Mrabet、Narayan和Perez Beltrachini，2016）以及意义表示和文本对（Novikova和Rieser，2016a；May和Priyadarshi，2017）。在图像字幕中，共享任务有助于开发大规模数据集和评估服务器，如ms-coco8（参见第4.1节）。

然而，总的来说，nlg评估的特点是多种多样，很难直接比较系统。这至少有两个原因。

Variable input

变量输入

nlg系统没有单一的、商定的输入格式（McDonald，1993；Mellish&Dale，1998；Evans等人，2002）。通常，如果输入相似，则只能将系统与公共基准进行比较。例如，第4节中描述的图像字幕系统，或提交给上述共享任务之一的系统。即使在可用于评估的通用“标准”数据集的情况下，由于输入变量或输入数据中的隐含偏差，比较也可能不简单。例如，Rajkumar和White（2014）观察到，尽管许多变现者正在根据Penn Treebank进行评估，但他们对输入格式做出了不同的假设，包括语法前输入表示的详细程度，这也是第一个表面实现共享任务中观察到的问题（Belz等人，2011）。正如Rajkumar和White（2014年）所指出的，根据Callaway（2005年）的实验，根据宾夕法尼亚州Treebank的得分对变现者进行的比较表明，排名最高的是fuf/激增变现者（在覆盖率方面排名第二）。然而，这些实验需要付出艰苦的努力来提取fuf/surge所需的细节级别的输入表示；其他实现器支持更多未指定的输入。与此相关的是，图像字幕评估研究表明，许多数据集包含的名词比例高于动词，抽象概念很少（Ferraro等人，2015），这使得生成强调对象的描述的系统更有可能得分更好。Elliott和De Vries（2015）表明了这一观察结果的相关性，他们指出，基于视觉依赖语法的图像字幕系统的排名部分取决于评估数据，在包含更多描述动作的图像的数据上表现更好（我们将在下文返回这项研究）。

Multiple possible outputs

多个可能的输出

即使对于单个输入和单个系统，可能的输出范围也是开放的，这一问题可以说适用于任何涉及文本输出的nlp任务，包括机器翻译和总结。语料库通常显示出很大的变化范围，并且在没有独立评估的情况下，通常不清楚哪些输出是首选（Reiter&Sripada，2002）。在图像字幕文献中，从检索角度构建问题的作者部分基于这个问题，提出“由于对什么构成良好的图像描述没有共识，因此不应直接比较独立获得的不同字幕生成系统的人类评估”（Hodosh等人，2013年，第580页）。虽然捕捉变化本身可能是一个目标（例如，Belz，2008年；Viethen&Dale，2010年；Hervás等人，2013年；Castro Ferreira等人，2016年），正如我们在第5节中对风格的讨论中所看到的，情况并非总是如此。因此，在面向用户的评估中，读者更喜欢SumTime mousam系统的天气预报，而不是那些由预报员编写的预报，因为后者的词汇化决策容易受到明显任意变化的影响（Reiter等人，2005）；最近报道了在SumTime语料库上训练的统计nlg系统的类似结果（Belz，2008；Angeli等人，2010）。

图8：假设评估场景：嵌入海上石油平台环境中的天气报告生成系统。底部强调了可能的评估方法，重点关注不同的问题，以及为解决这些问题而采取的典型方法取向（主观/客观）。

本节的其余部分将重点介绍当前工作中的一些热点问题，而不是对nlg评估进行详尽的回顾——鉴于我们所指出的多样性，这几乎不是一个现实的前景。作为对这些问题的概述，请考虑图8所示的假设情景，该情景大致受该领域开发的各种天气报告系统工作的启发。该nlg系统嵌入海上石油钻机的环境中；设置的相关特征（从Sparck Jones&Galliers，1996年的意义上讲）是系统本身及其用户，这里是一群工程师。虽然该系统的任务是根据数值天气预报数据生成天气报告，但其最终目的是方便用户规划钻井和维护作业。图8强调了nlg评估中解决的一些常见问题，以及用于解决这些问题的方法的广泛类型，特别是，这些问题是客观的，可以根据外部标准（如语料库相似性或实验获得的行为数据）来衡量，还是主观的，需要人类判断。

由于Sparck-Jones和Galliers（1996），一个基本的方法论区别是内在评价方法和外在评价方法。在nlg的情况下，内在评估测量系统的性能，而不参考设置的其他方面，例如系统相对于用户的有效性。在我们的示例场景中，与文本质量、输出正确性和可读性相关的问题属于内在问题，而系统是否真正实现了其支持海上平台上充分决策的目标，这是一个外在的问题。

7.1内在方法

nlg中的内在评价由两种方法主导，一种依赖于人类的判断（因此是主观的），另一种基于语料库。

7.1.1主观（人类）判断

人类的判断通常是通过将天真或专家的受试者暴露在系统输出中，并让他们根据某些标准对其进行评分来得出的。常见标准包括：

流利性或可读性，即文本的语言质量（例如，Callaway&Lester，2002；Mitchell等人，2012；Stent，Marge，&Singhai，2005；Lapata，2006；Cahill，2009；Espinosa，Rajkumar，White，&Berleant，2010等）
相对于输入的准确性、充分性、相关性或正确性，反映了系统对内容的再现（例如Lester&Porter，1997；Sripada，Reiter，&Hawizy，2005；Hunter，Freer，Gatt，Reiteer，Sripada&Sykes，2012），这也是图像字幕系统主观评价中常用的标准（例如。Kulkarni等人，2011年；Mitchell等人，2012年；库兹涅佐娃等人，2012年；Elliott&Keller，2013）。

尽管它们是最常见的，但这两套标准并没有用尽可能。例如，在一个旨在为潜在购房者生成具有说服力的文本的系统中，也对论点的有效性进行了主观评分（Carenini&Moore，2006）。在图像字幕中，通过要求用户判断生成的字幕的创造性来评估至少一个系统，以评估网络规模的n-gram语言模型对字幕质量的贡献（Li等人，2011）。下面，我们还讨论了类型兼容性的判断（第7.1.3节）。在虚构叙事的情况下，一些评价引发了对新颖性（例如，佩雷斯、奥尔蒂斯、露娜、内格雷特、卡斯特拉诺斯、佩·纳洛萨和阿维拉，2011年）或人物可信度（例如，里德尔和杨，2005年）等品质的判断。

使用量表来引发判断引发了许多问题。这与天平本身的性质有关。虽然离散的顺序量表是主要的方法，但连续量表——例如，涉及视觉呈现滑块的量表（Gatt&Belz，2010；Belz&Kow，2011）——可能会让受试者做出更细微的判断。

例如，我们假设的天气报告系统生成的文本可能会被判断为不流畅，从而在序数等级上被给予最低评级；如果下面的文本被判断为更糟糕，那么主题将无法表明这一点。一个相关的问题是，受试者是否更容易比较项目，而不是独立判断每一个项目。这一问题已开始在nlp评估文献中得到解决，通常采用二进制比较，例如两个mt系统的输出之间的比较（参见Dras，2015年的讨论）。在最近一项评估nlg系统产生的因果连接词的研究中，Siddharthan和Katsos（2012）使用了幅度估计法，即不给受试者一个预先定义的量表，而是要求他们自己选择一个量表，并将每个项目与“模数”进行比较，该模数在整个实验中用作比较点(see Bard, Robertson, & Sorace, 1996).Belz和Kow（2010）将基于偏好的范式与标准评分量表进行了比较，以评估两个不同领域（天气报告和reg）的系统，并发现前者对系统之间的差异更敏感，对受试者之间的差异不敏感。

主观评价的另一个问题是评分者之间的可靠性。不同评估者的多个判断可能表现出高方差，这是问题生成中遇到的问题（Rus等人，2011）。最近，Godwin和Piwek（2016）提出，可以通过迭代方法来减少这种差异，即在培训法官之后进行一段时间的讨论，从而更新评估指南。然而，这在时间和资源方面更为昂贵。

或许可以公平地说，如今，主观的、人性化的评估通常通过亚马逊Mechanical Turk和CrowdFlower等在线平台进行，尽管这对于英语等广泛使用的语言来说可能更可行。这类平台的一个自我讨论的问题涉及到其道德含义（例如，它们涉及大量薪酬低的个人；参见Fort，Adda，&Bretonel Cohen，2011）以及所收集数据的可靠性，尽管可以采取措施确保，例如，贡献者能够流利地使用目标语言（参见例如，Goodman、Cryder和Cheema，2013；Mason和Suri，2012）。

7.1.2使用语料库的客观人像测量

依赖于语料库的内在方法通常可以说是在解决“人形”问题，即在可比条件下系统输出与人类输出匹配的程度。从开发人员的角度来看，这种方法的卖点是便宜，因为它们通常基于自动计算的度量。各种基于语料库的度量，通常在早期的相关领域如机器翻译或摘要中使用，已经用于nlg评估。表1总结了其中一些主要特征，根据其主要特征对其进行了分组，并为每个特征添加了关键参考。

表1：基于字符串重叠、字符串距离或内容重叠的内在、基于语料库的度量。最后一列指明了nlp子规程，在适用的情况下，度量源自该子规程。图例：mt=机器翻译；as=自动总结；ic=图像字幕；ds=文档相似性。

n-gram重叠或字符串编辑距离的度量，通常起源于机器翻译或总结（除了一些例外，如苹果酒、Vedantam等人，2015），通常用于评估表面实现（例如，White、Rajkumar和Martin，2007；Cahill和Van Genabith，2006；Espinosa等人，2010；Belz等人，2011），偶尔也用于评估天气等领域中数据驱动系统的短文本特征报告（例如Reiter&Belz，2009；Konstas&Lapata，2013）和图像字幕（参见Bernardi等人，2016；Kilickaya，Erdem，Ikizler Cinbis，&Erdem）。编辑距离度量已用于实现（Espinosa等人，2010），但也用于reg（Gatt&Belz，2010）。

这些指标的重点是输出文本，而不是其对输入的保真度。在有限的情况下，面向表面的度量被用于评估输出文本反映内容的充分性（Banik等人，2013；Reiter&Belz，2009）。然而，如果内容确定是焦点，那么表面重叠的度量充其量就是一个代理，这取决于输入和输出之间的直接对应关系的假设。如果文本简短且相对可预测，这一假设可能成立。在某些情况下，基于语义注释的语料库，可以使用度量直接测量内容确定。例如，reg算法已经使用集合重叠度量以这种方式进行了评估（Viethen&Dale，2007；van Deemter等人，2012a）。与此相关的还有金字塔法（Nenkova&Passonnau，2004）的总结，它依赖于多个人类总结中内容单元（最大程度上对应于从句）的识别。这些是根据人类总结中提及的频率进行加权和排序的。候选摘要根据其包含的内容单元的权重与承载相同内容单元数量的理想摘要的权重之比进行评分（参见Nenkova&McKeown，2011，讨论）。

生成的输出和候选输出之间的内容重叠的直接测量可能会增加，因为自动数据文本对齐技术使这种“语义透明”的语料库更容易用于端到端的nlg（参见例如，Chen&Mooney，2008；Liang等人，2009，以及第3.3节中的讨论）。远离纯表面重叠的一个重要发展是使用语义资源（如流星，Lavie&Agarwal，2007）或单词嵌入（如wmd，Kusner等人，2015）来计算输出与参考文本的接近度，而不是文字字符串重叠。在对图像字幕指标的比较评估中，Kilickaya等人（2017）发现，与其他指标相比，wmd具有优势。

7.1.3体裁兼容性和文体效果评估

评估研究中偶尔会提出一个略有不同的问题，即系统产生的语言伪像是否是特定体裁或风格的可识别实例。如第5节所述，很难确定读者在多大程度上实际感知到微妙的文体变化。因此，Mairesse和Walker（2011）在人物评价中发现了对个性的不一致看法，这一点因文体特征相互作用并可能相互抵消而变得复杂。

体裁感知是产生创造性语言的方法的核心问题（见第6节）。例如，Hardcastle和Scott（2008）描述了一种基于图灵测试的隐秘纵横字谜线索生成系统的评估，其中的目标是确定系统的输出是否与人类创作的线索有明显不同。与此相关的是，在评估日本笑话生成系统时，Binsted、Pain和Ritchie（1997年，见第6.1节）向120名8-11岁的儿童展示了一些双关谜语，其中一些是由日本笑话自动生成的，一些是从笑话书中选择的。

它们还包括一些非玩笑控制，例如：

(37) What do you get when you cross a horse and a donkey?
A mule

（37）当你把马和驴杂交时，你会得到什么？一头骡子

对于孩子们接触到的每一种刺激，他们都被要求指出他们是否认为这是一个笑话，以及他们认为这有多有趣。结果显示，电脑生成的谜语被认为是笑话，并且被认为比非笑话更有趣。有趣的是，儿童评分最高的笑话是由jape自动生成的（我们敦促读者检查原始论文），尽管一般来说，儿童认为人工制作的笑话比自动生成的笑话更有趣。因此，在这项评估研究中，发现生成文本的外在方面，即其功效（此处为“趣味性”）与其作为目标体裁实例的可识别性相关。

Petrovic和Matthews（2013）根据他们的系统使用的I like my X…模板，通过从Twitter上收集人类书面笑话，评估了他们的无监督笑话生成方法。人类评委对人类书写的和自动生成的笑话进行的盲评显示，他们表现最好的模型在16%的案例中被评为搞笑，而人类笑话中只有33%（这一比例相对较低）。

尽管这些研究中提出的问题显然具有内在的取向（“文本是否与预期的体裁惯例兼容？”），但它们也与外在因素有关，因为将艺术品识别为体裁的实例或表现出某种风格或个性的能力可以说是其影响的来源之一，这又包括对文本是有趣还是有趣的判断。

当然，风格、个性或情感变化背后的意图很可能是为了最终提高实现某些不可告人的目标的效率。事实上，任何打算嵌入特定环境的nlg系统都需要解决风格和基于genrebased的问题。例如，我们假设的天气报告生成器可能会使用非常简短的技术风格，因为它的目标用户是专业的（SumTime Reiter等人，2005）；相比之下，用于公众消费的天气报告，如WeatherGov语料库中的天气报告可能会更长，技术性也会更低（Angeli等人，2010）。

然而，评估体裁限制或风格变化是否有助于实现目标，与评估文本是否实际表现出所需的变化之间存在差异。例如，Mairesse和Walker（2011）评估了人物系统（见第5节），要求用户判断生成的对话片段中反映的性格特征（而不是，如果系统配置具有高度外向性，则测量用户是否更可能在餐厅用餐）。这在精神上类似于Binsted等人（1997）提出的关于开玩笑的问题，与Waller、Black、O'Mara、Pain、Ritchie和Manurung（2009）对单口笑话生成器的更明确的外部评估形成对比，后者询问该系统是否真的帮助用户改善了与同伴的互动。

7.2外在评价方法

与内在方法相反，外在评价衡量实现预期目标的有效性。在图8的示例场景中，这样的评估可能会解决作为系统目标用户的工程师对规划的影响。显然，“有效性”取决于系统的应用领域和目的。示例包括：

说服和行为改变，例如，通过接触个性化戒烟信（Reiter等人，2003）；
基于用户模型，在提出支持和反对住房市场选项的论点后做出购买决策（Carenini&Moore，2006）；
阅读有关候鸟的博客后，参与生态问题（Siddharthan等人，2013）；
生成患者报告后，在医疗环境中提供决策支持（Portet等人，2009；Hunter等人，2012）；
通过生成个人叙事增强具有复杂沟通需求的用户之间的语言互动（Tintarev、Reiter、Black、Waller和Reddington，2016）；
增强辅导对话中的学习效能（Di Eugenio、Fossati、Yu、Haller和Glass，2005；Fossati、Di Eugenio、Ohlsson、Brown和Chen，2015；Boyer、Phillips、Ingram、Ha、Wallis、Vouk和Lester，2011；Lipschultz、Litman、Jordan和Katz，2011；Chi、Jordon和VanLehn，2014）

虽然基于问卷调查或自我报告的研究可用于解决外部标准（例如，Hunter等人，2012；Siddharthan等人，2013；Carenini&Moore，2006），但在许多情况下，评估依赖于对绩效或成就的客观衡量。这可以在目标用户现场完成，增强研究的生态有效性，但也可以采取任务的形式，为nlg系统设计的场景建模。因此，在give Challenge（Striegnitz等人，2011）中，nlg系统生成用户在虚拟世界中导航的指令，通过让用户在线玩give游戏来进行大规模基于任务的评估，同时记录各种成功指数，包括用户完成游戏所需的时间。reg算法的目标是生成视觉域中对象的识别描述，部分基于读者根据生成的描述识别被指对象所花费的时间及其错误率进行评估（Gatt&Belz，2010）。skillsum是一个从扫盲评估中生成反馈报告的系统，通过测量用户在阅读产生反馈后对自身扫盲技能的自我评估与对照文本相比如何提高来进行评估（Williams&Reiter，2008）。

除了时间和费用外，外部研究的一个潜在缺点是依赖于足够的用户基础（当必须从特定人群中对用户进行采样时，如图8中假设场景中的工程师）以及在现实环境中进行研究的可能性。此类研究还提出了重大的设计挑战，因为需要控制干预和混杂变量，比较系统的多个版本（例如，消融设计；见下文第7.3节），或将系统与金标准或基线进行比较。例如，Carenini和Moore（2006）指出，评估文本中提出的论点的有效性需要考虑用户性格的各个方面，这可能会影响他们对论点的接受程度。

BabyTalk系列系统提供了设计和控制问题与生态有效性之间权衡的一个例子。一个名为bt-45（Portet et al.，2009）的试点系统，从45分钟的历史患者数据中生成患者摘要，在一项涉及护士和医生的任务中进行了评估，他们根据所提供的信息从一组临床行动中进行选择。然后由高级新生儿专家将这些结果与“基本真相”决定进行比较。该评估在病房外进行；因此，受试者在人工环境中进行临床决策，而无需直接接触患者。另一方面，在对bt-45的继任者bt护士的评估中，该护士总结了12小时轮班收集的患者数据（Hunter等人，2012年），该系统在病房中使用实时患者数据进行了评估，但伦理考虑排除了基于任务的评估。出于同样的原因，与“金标准”人类文本相比也是不可能的。因此，评估引发了对内在标准（如可理解性和准确性）和外在标准（如感知临床效用）的判断（参见Siddharthan等人，2013年，关于影响的类似间接外在测量，这次是在生态环境中）。

7.3黑盒与玻璃盒评估

除了对特定模块或算法的评估，如reg或曲面实现器的评估，迄今为止讨论的大多数评估研究都被归类为“端到端”或完整nlg系统的“黑匣子”评估。另一方面，在“玻璃盒”评估中，受审查的是单个组件的贡献，理想情况下，在以相同方式评估带有和不带组件的系统版本的设置中。请注意，黑盒和玻璃盒评估之间的区别与使用哪种方法的问题正交。

Callaway和Lester（2002）使用了烧蚀设计，根据省略或包含关键组件的不同配置，得出了对叙事生成系统输出质量的判断，这是玻璃盒评估的一个极好的例子。与此相关，Elliott和Keller（2013）将包括空间和语言依赖的细粒度依赖表示的图像与文本模型与具有粗粒度图像表示的模型进行了比较，发现前者的优势。

然而，有时难以进行详尽的组件式比较，并可能导致配置的组合爆炸，伴随着每个配置收集的数据点的减少（假设受试者有限，需要在不同条件下进行划分）和统计能力的降低。文献中确实存在替代品。Reiter等人（2003年）利用人工和机器生成的文本以及“混合”版本对天气预报进行了判断，其中内容由预报员选择，但语言是自动生成的。这实现了人工和自动内容选择的比较。Angeli等人（2010）使用基于语料库和主观测量来评估语言质量，再加上基于精确性和重新调用的测量来评估统计系统相对于人类注释文本的内容确定。在bt nurse（Hunter等人，2012）中，护士被提示提供自由文本评论（除了回答针对外在维度的问卷），然后对其进行手动注释和分析，以确定系统的哪些元素可能存在问题。

7.4论评价方法之间的关系

被调查的大量方法——从外在的、面向任务的到依赖于自动度量或人工判断的内在方法——在多大程度上实际相关？事实证明，多种评估方法很少对一个系统或一组被比较系统的相对排名给出一致的结论。

7.4.1衡量标准与人类判断

尽管mt和总结中使用的基于语料库的度量通常通过证明它们与人类评分的相关性来验证，这些领域的元评估研究表明，对应关系有点弱（例如，Dorr、Monz、Oard、President、Zajic和Schwartz，2004；Callison Burch、Osborne和Koehn，2006；Caporaso、Deshpande、Fink、Bourne、Bretonel Cohen和Hunter，2008）。类似地，参考表达生成的共享任务评估表明，基于语料库的、基于判断的和基于实验或任务的方法通常不相关（Gatt&Belz，2010）。在最近的综述中，Bernardi等人（2016）指出了图像字幕系统评估中的一个类似问题。因此，Kulkarni等人（2013）发现，他们的图像描述系统在bleu评分方面没有优于两种早期方法（Farhadi等人，2010；Yang等人，2011）；然而，人类的判断表明了相反的趋势，读者更喜欢他们的系统（Kiros等人，2014年进行了类似的观察）。Hodosh等人（2013）比较了人类判断与检索到的字幕的bleu或rouge评分之间的一致性（由Cohenκ测量），发现除非检索到的标题与参考字幕相同，否则人类和度量对输出的排序并不相似。

有时，在不同的研究中，度量和人类判断之间的相关性似乎有所不同，这表明基于度量的结果很容易因生成算法和数据集而发生变化。例如，Konstas和Lapata（2013）（在上文第3.3.4节中讨论）发现，在基于语料库的度量上，他们的模型的最佳表现版本在robocup域上不优于Kim和Mooney（2010），在天气语料库（weathergov）上也不优于Angeli等人（2010）。然而，一项基于人类判断的流畅性和语义正确性评估显示，该系统在所有领域的两项指标上都略优于Kim、Mooney和Angeli等人，weathergov除外，Angeli等的系统表现稍好。

与此相关，Elliott和De Vries（2015）将基于视觉依赖关系的图像字幕系统与Karpathy和Fei Fei（2015）在两个不同的数据集上开发的双向rnn进行了比较。这两个系统在vlt2k数据集上彼此接近，但在Pascal1k上不接近，作者声称这是因为vlt2k包含更多涉及动作的图片。关于度量和人类判断之间的关系，Elliott和Keller（2013）得出结论，流星比蓝星关联性更好（参见Elliott&Keller，2014，关于该领域自动度量的系统比较），这一发现也在他们后来的工作中得到了证实（Elliott&De Vries，2015），以及在ms-coco评估挑战中，后者发现流星更稳健。然而，Kuznetsova等人的工作（2014）显示了不同的结果；根据人类的判断，他们的得分最高的方法，包括树木的组成，布莱的得分高于流星的得分。在ms coco评估挑战中，与使用自动度量的参考文本相比，一些系统的表现优于人类上限，但在基于人类判断的评估中，没有系统达到这一水平（参见Bernardi等人，2016，进一步讨论）。

一些研究明确地将方法之间的关系作为一个研究问题。这方面的一个重要贡献是Reiter和Belz（2009）的研究，该研究解决了基于语料库的度量在天气预报生成领域中与人类判断相关的有效性（最近对图像字幕进行了类似研究；见Elliott&Keller，2014）。在第一个以语言质量为重点的实验中，作者发现专家和非专家读者的判断之间有很高的相关性，但人类判断和自动度量之间的相关性差异很大（从0.3到0.87），这取决于所使用的度量的版本以及人类判断是否将参考文本纳入比较中。第二个实验评估了两种语言的质量，要求人类法官对清晰度/可读性进行评分；通过对准确性/适当性的判断（通过将文本与原始数据进行比较）来确定内容。自动度量与清晰度的判断显著相关，但与准确度的关系却远小于此，这表明它们在预测语言质量方面优于正确性。

其他研究也得出了类似的不一致的结果。在一项关于释义生成的研究中，Stent等人（2005年）发现，自动度量与适当性判断高度相关（近似于准确性），但与流利性无关。相比之下，Espinosa等人（2010）发现，诸如nist、流星和gtm等自动度量与人类流畅度和英语表面实现质量的充分性判断有着良好的相关性，而Cahill（2009）报告了德语表面实现的相关性较弱。Wubben、van den Bosch和Krahmer（2012）对文本简化策略进行了比较，发现bleu和流畅性判断之间的相关性很低，但很显著，bleu和充分性之间的相关性非常低。这些对比发现表明，度量之间的关系可能取决于所考虑的文本的目的和类型；例如，Reiter和Belz（2009）使用天气报告，而Wubben等人（2012）使用维基百科文章。

可以举出各种因素来解释这些元评估研究的不一致性：

诸如bleu之类的度量对比较文本的长度敏感。对于较短的文本，基于n-gram的度量可能会导致较低的分数。
重叠的类型很重要：例如，图像字幕中的许多评估都依赖于bleu-1（Elliott&Keller，20132014，是最早尝试使用较长的n-gram的人之一），但较长的n-Gram更难匹配，尽管它们捕获了更多的句法信息，可以说是流畅度的更好指标。
语义可变性是一个重要问题。生成的文本可能与参考文本相似，但在一些近义词或细微的语序变化上有所不同。如表1所示，一些指标旨在部分解决这些问题。
许多基于语料库的内在度量被设计为与多个参考文本进行比较，但这在nlg中并不总是可能的。例如，虽然图像字幕数据集通常包含每个图像的多个字幕（通常为5个左右），但在其他领域，如天气报告或餐厅推荐，情况并非如此。

结果是，nlg评估越来越依赖于多种方法，这一趋势在nlp的其他领域也同样明显，如mt（Callison Burch、Fordyce、Koehn、Monz和Schroeder，20072008）。

7.4.2使用受控实验

一些研究根据实验数据验证了评估措施。例如，Siddharthan和Katsos（2012）将其量值估计判断研究的结果（见上文第7.1节）与句子回忆任务的结果进行了比较，发现后者的结果在很大程度上与判断一致，并得出结论，它们可以替代基于任务的评估，以阐明句子水平的理解障碍。少数研究还使用了行为实验，并将“在线”处理措施（如引用表达式的阅读时间）与基于语料库的指标进行了比较（例如Belz等人，2010）。与自动度量的相关性通常很差。Lapata（2006）对阅读时间的使用略有不同，他将阅读时间用作客观衡量标准，以验证Kendallτ作为评估文本中信息排序的指标（文本结构的一个方面）。在最近的一项研究中，Zarrieß、Loth和Schlangen（2015）将生成的文本与人类创作的文本和“填充”文本进行了比较（这些文本被人为操纵以破坏其连贯性）。他们发现，阅读时间测量比离线测量更有助于区分这些类别的文本，离线测量基于对流畅度和清晰度的判断。

7.5评估：结论性意见

在本节的背景下，可以得出三个主要结论：

人们普遍接受在nlg中使用多种评估方法的必要性。虽然它们之间并不总是一致的，但它们有助于阐明质量的不同方面，从输出的流畅性和清晰度，到语义内容的充分性和实现交际意图的有效性。方法的选择对解释结果的方式有直接影响。
元评价研究在人类判断、行为测量和自动计算的度量之间的关系上产生了相互矛盾的结果。它们之间的相关性因任务和应用程序域而异。这是一个正在进行的研究主题，大量研究集中于度量的可靠性及其与其他度量的关系，尤其是人类判断。
一个尚待探讨的问题涉及质量的各个方面，而这些方面本身就是调查的对象。（在这方面，值得注意的是，一些同类学科试图以其不一致为理由，淡化其作用；参见Callison Burch等人，2008年）。例如，当人们判断流利程度或充分程度时，他们是如何判断的？这些判断是否真的应该与其他衡量标准相关联还远不明显，因为后者是面向生产者的，关注的是产出，而判断本身往往是面向接收者的，关注产出是如何读取或处理的（有关相关论点，见Oberlander，1998）。此外，虽然元语言判断可以反映文本对读者的影响，但设计用于直接调查处理方面的行为、在线方法可能会产生不同的结果，这一结果已在一些心理语言学研究中获得（例如Engelhardt、Bailey和Ferreira，2006）。

总之，我们对nlg从业者的主要建议是，在评估方面，尽可能使用多种方法，并不仅报告结果，还报告它们之间的相关性，从而偏向于多样性。弱相关性并不意味着特定方法的结果无效。相反，它们可能表明衡量标准侧重于系统或其输出的不同方面。

8.讨论和未来方向

在过去的二十年中，天然气领域取得了长足的进步，其中许多最新的进展还没有被全面的调查所涵盖。本文旨在解决这一差距，目标如下：

更新该领域的核心任务和体系结构，重点是最近的数据驱动技术；
简要强调相对较新领域的最新发展，包括视觉文本生成和风格多样、引人入胜或富有创造性的文本生成；
广泛讨论nlg应用评估的问题和前景。

在整个调查过程中，出现了各种一般的相关主题。中心主题可能是逐渐从传统的、基于规则的方法转向统计的、数据驱动的方法，当然，这在整个人工智能领域都在发生。在nlg中，这对单个任务的处理方式产生了重大影响（例如，从依赖于域的方法转向更通用的、与域无关的方法，转而依赖于可用的数据），也对任务在不同架构中的组合方式产生了影响（例如从模块化转向更集成的方法）。生成文本的输出质量与方法的效率和稳健性之间的权衡正成为一个中心问题：数据驱动方法可以说比基于规则的方法更有效，但输出质量可能会受到影响，原因我们已经讨论过。另一个重要的主题是核心nlg研究与其他学科之间的相互作用越来越大，例如计算机视觉（在视觉到文本的情况下）和计算创造力研究（在创造性语言使用情况下）。

在这项对nlg技术现状的全面调查结束时，鉴于工业和学术界的发展速度很快，我们认为指出一些潜在的未来方向以及提出一些最近研究突出的问题是有益的。

8.1为什么（以及如何）使用NLG？

在对nlg进行有影响力的调查之初，Reiter和Dale（2000）向开发人员建议她在开始设计和实施系统之前提出这个问题。nlg真的能在目标领域有所帮助吗？是否存在更便宜、更标准的解决方案，它是否也同样有效？从工程师或公司的角度来看，这些显然是相关的问题。正如最近基于行业的nlg应用所表明的那样，每当需要向用户呈现的信息相对庞大时，该技术通常是有价值的，并且其形式不易被使用，并且在不进行大量转换的情况下无法直接映射到更用户友好的模式。这可以说是nlg独树一帜的地方，它提供了一系列技术来选择、构造和呈现信息。

然而，nlg是否值得在特定环境中使用的问题也应该伴随着它应该如何使用的问题。我们的调查集中于文本生成技术，但文本并不总是孤立地呈现。其他重要维度包括文档结构和布局，这是一个尚未研究的问题（但请参见Power等人，2003）。它们还包括图形在文本中的作用，这是nlg和可视化社区之间有可能进一步互动的一个领域，解决了哪些信息应该以文本方式呈现以及哪些信息可以以图形方式更容易访问等问题（例如，Demir、Carberry和McCoy，2012）。

这些问题在某些领域具有重要意义，尤其是那些准确的信息传递是故障关键情况下决策的前兆的领域（例如，参见Elting、Martin、Cantor和Rubenstein，1999；Law、Freer、Hunter、Logie、McIntosh和Quinn，2005；van der Meulen、Logie，Freer、Sykes、McIntos和Hunter，2007）。

8.2NLG是否包括文本到文本？

在我们的介绍部分，我们区分了文本到文本生成、数据到文本生成；这项调查主要关注后者。这两个领域有着不同的特点，尤其是nlg输入往往变化很大，nlg系统的目标也是所考虑领域的函数。相比之下，文本到文本生成的输入，尤其是自动摘要，相对来说是同质的，尽管其目标可能有很大差异，但该领域也成功地定义了任务和数据集（例如，通过duc共享任务），这为后续研究奠定了标准。

然而，仔细观察这两种类型的发电将显示出比上述特征所暗示的更大的趋同空间。首先，如果nlg关注从数据到文本的转换，那么文本输入肯定应该被视为输入数据可能呈现的各种形式中的一种。最近的一些工作，如Kondadadi等人（2013）（第3.3节讨论）和McIntyre和Lapata（2009）（第6节讨论），明确关注利用此类数据生成连贯文本。nlg的其他方法，包括一些符合标准、模块化、数据到文本架构的系统（例如，Hunter等人，2012），必须将文本作为多种输入类型中的一种来处理，尽管使用了非常简单的技术。从包括文本作为一种类型的数据的异构输入中生成是一个很有前途的研究方向，特别是考虑到大量可用的文本数据，通常伴随着数字或图像。

8.3寻找应用的理论和模型？

Mellish和Dale（1998）在对20世纪90年代末nlg评估现状的概述中，讨论了评估一个系统的可能方法、其理论基础，特别是nlg系统或其组成部分的理论模型是否足以完成这项任务并可推广到新的领域。这个问题不是针对nlg系统进行评估，而是针对理论本身，并建议我们将nlg视为此类理论或模型的潜在试验台。但nlg背后的理论是什么？

nlg中理论模型的突出程度往往取决于所考虑的任务。例如，第2.6节中讨论的许多实现方法都是基于特定的句法结构理论；对reg的研究通常基于语用理论的见解，尤其是格里斯格言（Grice，1975）；修辞结构理论（Mann&Thompson，1988）启发了许多关于文本结构的研究。相对新颖的句子规划任务——尤其是与风格、情感和个性有关的任务——往往具有理论灵感，例如，以人格模型（John&Srivastava，1999）或礼貌理论（Brown&Levinson，1987）的形式。

通常情况下，这些理论在正式化一个特定问题的过程中被利用，以获得易于处理的解决方案。正如Mellish和Dale（1998）所建议的那样，将它们在nlg系统中的实现视为对理论的明确测试，这种情况发生得要少得多。这或许反映了该领域“工程导向”和“理论导向”观点之间的分歧：前者强调可行的解决方案、稳健性和输出质量；后者强调理论的健全性、认知的合理性等。然而，理论/工程二分法可以说是错误的。虽然nlg研究的目标通常与认知建模的目标不同（例如，很少有nlg系统寻求对生产错误进行明确建模），但理论驱动的实现本身也是对理论工作有价值的贡献。

最近，一些作者认为nlg从业者应该更加关注理论和认知模型。支持这一论点的理由有两方面。首先，心理语言学结果和理论模型实际上有助于改进实施的系统，正如Rajkumar和White（2014）在实现的案例中所展示的那样。

其次，如van Deemter等人（2012b）所述，理论模型可以从形式精确性中受益，这是计算语言学研究的主要内容；Poesio等人（2004）提供了nlp中的一个具体例子，其对定心理论的实施（Grosz，Joshi，&Weinstein，1995）揭示了原始模型中的许多未指定参数及其后续修改。我们在这里的论点是，nlg提供了丰富的理论见解，不应被更广泛的研究界所忽视；同样，nlg研究人员无疑会从理论和实验工作的最新发展中受益。

8.4我们从这里走到哪里？

最后，我们对未来研究的一些进一步方向进行了一些推测，这些方向的时机似乎已经成熟。

在整个自然语言处理领域，最近一个引人注目的发展是对社交媒体的兴趣爆发，包括在线博客、微博（如Twitter Feed）和社交平台（如Facebook）。在一方面，对社交媒体的兴趣可以被视为nlp中长期存在的话题的自然延伸，包括处理“野外”语言的愿望。然而，社交媒体数据为探索非规范语言提供了更多动力（例如Eisenstein，2013）；社会和人口因素对语言使用的影响（例如Hovy&Søgaard，2015；Johannsen，Hovy，&Søgaard，2015）；副语言特征的流行，如情感、讽刺和幽默（Pang&Lee，2008；Lukin&Walker，2013）；以及性格等其他变量（例如Oberlander&Nowson，2006；Farnadi，Zoghbi，Moens，&De Cock，2013；Schwartz等人，2013）。社交媒体馈送也是识别话题和趋势事件的重要数据流（参见Atefeh&Khreich，2015，最新评论）。迄今为止，在生成此类数据的文本或多媒体摘要方面的工作还很少（但参见，例如，Wang、Raghavan、Cardie和Castelli，2014）或在社交媒体环境中生成文本（例外情况包括Ritter等人，2011；Cagan、Frank和Tsarfaty，2014）。由于大多数社交媒体文本都是主观的和固执己见的，nlg研究人员对社交媒体的兴趣增加也可能会给研究风格、个性和影响对文本变异（第5节讨论）和非文字语言（包括第6节讨论的一些现象）的影响带来新的动力。

nlg的第二个潜在增长领域是情境语言生成。“情境”一词通常被认为是指在物理或虚拟环境中的语言使用，其中生产选择明确考虑了感知和物理特性。在过去几年中，情境语言处理的研究取得了显著进展，有了虚拟语境中的语言生成和理解框架（例如，Kelleher、Costello和Van Genabith，2005），以及nlg、，尤其是在互动环境中生成语言（Kelleher&Kruijff，2006；Stoia&Shockley，2006；Garoufi&Koller，2013；Dethlefs&Cuayáhuitl，2015）。流行的give Challenge为这项研究增添了进一步的动力（Striegnitz等人，2011）。显然，这项工作也与在感知世界中建立生成语言的基础有关，第4节中讨论的研究构成了当前的趋势之一。

然而，在许多领域，定位是关键，nlg仍然可以在这些领域做出新的贡献。其中之一就是游戏。除了一些努力增强虚拟环境中使用的语言表达的多样性（例如，Orkin&Roy，2007），nlg技术在游戏研究中相对没有代表性，尽管在游戏环境中的动态内容生成方面取得了重大进展（例如，Togelius、Yannakakis、Stanley和Browne，2011）。这可能是因为人们认为游戏中的语言互动是可预测的，可以依赖“罐装”文本。然而，随着游戏化作为一种增强娱乐以外的各种活动（如教育学）的策略的影响力越来越大，以及用于改变游戏世界动态展开方式的复杂规划技术的发展，关于语言使用的可预测性的假设很可能会被修正。

第三，人们对将nlg技术应用于结构化知识库和本体的生成越来越感兴趣（例如Ell&Harth，2014；Duma&Klein，2013；Gyawali&Gardent，2014；Mrabet，Vougiouklis，Kilicoglu，Gardent、Demner Fushman，Hare，&Simperl，2016；Sleimi&Garden，2016，其中一些在第3.3.4节中进行了简要讨论）。知识库（如dbpedia）或民间分类法（如Freebase）的可用性不仅本身构成了输入源，而且还为探索结构化输入和文本之间在比迄今为止更广泛的领域中的对齐开辟了可能性。

最后，尽管在过去几年中，nlg中的数据驱动技术发生了重大转变，但其中许多技术尚未在商业或现实应用中进行测试，尽管介绍部分提到了文本生成服务的商业化增长。通常，在商业场景中，或在输入量大且异构的情况下，基于规则的系统的论点是：（1）它们的输出对于目标系统更容易控制；或（2）在任何情况下，数据在给定域中都不可用，使得统计技术的使用变得毫无意义；或者（3）数据驱动系统还没有被证明能够扩展到实验场景之外（例如，Harris，2008年提出了一些论点）。对第一点的回应取决于技术的可用性，这些技术使开发人员能够“深入了解”并理解模型所学的统计关系。例如，这些技术正被开发用于研究或可视化深度神经网络所学习的表示。第二点要求对数据采集和数据文本对齐的研究进行更多投资。依赖于数据和文本之间不太精确对齐的生成技术也是一个很有前途的未来方向。最后，可扩展性仍然是一个开放的挑战。我们讨论的许多系统都是在研究环境中开发的，其目的当然是推动nlg的前沿，并证明新方法的可行性或正确性。虽然在某些情况下，对数据到文本的研究已经解决了大规模的问题——尤其是在一些总结数字数据的系统中——但对可扩展性的更大关注也会使研究人员关注诸如收集数据和训练系统所需的时间和资源以及正在部署的算法的效率等问题。很明显，硬件的发展将缓解这些问题，就像最近变得更加可行的一些统计方法所发生的那样。

9.结论

近年来，人们对自动文本生成的兴趣显著增加。公司现在为新闻、天气和金融等领域的一系列应用提供nlg技术。可用数据和计算能力的巨大增长，以及机器学习的快速发展，创造了许多新的可能性，并促使nlg研究人员探索许多新的应用，例如与图像到文本生成相关的应用，而与社交媒体相关的应用似乎指日可待，例如，用于自动内容创建的nlg相关技术以及用于twitter和聊天机器人的nlg的出现（例如，Dale，2016）。随着技术的稳步发展，该技术也逐渐进入工业应用领域，该领域的前景似乎是光明的。我们认为，应通过与相关学科的更多合作，进一步加强nlg的研究。我们希望，这项调查将有助于突出此类多学科工作的一些潜在途径。

自然语言生成技术现状调查：核心任务、应用和评估（4）相关推荐

自然语言生成技术现状调查：核心任务、应用和评估（2）
论文前面部分:自然语言生成技术现状调查:核心任务.应用和评估(1)_流萤数点的博客-CSDN博客目录 3.NLG体系结构和方法 3.1模块化的方法 3.2规划方法 3.2.1语法规划 3.2.2基于 ...
自然语言生成技术现状调查：核心任务、应用和评估（3）
前面的自然语言生成技术现状调查:核心任务.应用和评估(1)_流萤数点的博客-CSDN博客自然语言生成技术现状调查:核心任务.应用和评估(2)_流萤数点的博客-CSDN博客目录 4.视觉语言界面:图 ...
自然语言生成技术现状调查：核心任务、应用和评估（1）
论文:<Survey of the State of the Art in Natural Language Generation: Core tasks, applications and e ...
基于自然语言生成技术的语义理解：实现智能对话和自动摘要的核心技术
文章目录基于自然语言生成技术的语义理解:实现智能对话和自动摘要的核心技术 1. 引言 2. 技术原理及概念 2.1. 基本概念解释 2.2. 技术原理介绍:算法原理,操作步骤,数学公式等 2.2.1 ...
杭州职业技术学院计算机教研室主任,课题名称杭州地区农村小学教师运用现代教育技术现状调查和对策的研究.doc...
总编号杭州市教育科学规划年度研究课题申报表课题名称杭州地区农村小学教师运用现代教育技术现状的调查与对策研究课题负责人方卫华__________________ 完成时间 __2007 ...
CS224n自然语言处理（三）——问答系统、字符级模型和自然语言生成
文章目录一.问答系统 1.Stanford Question Answering Dataset (SQuAD) 2.Stanford Attentive Reader Stanford Atten ...
一文了解自然语言生成演变史！
作者|Abhishek Sunnak 等译者|Sambodhi 编辑|Debra AI 前线导读:自然语言生成(Natural Language Generation,NLG)是自然语言处理的一部分 ...
中国中文信息学会：第一届自然语言生成与智能写作大会讲习班正式发布
自然语言生成与智能写作大会(NLGIW)是中国中文信息学会(CIPSC)自然语言生成与智能写作专业委员会(筹)主办的学术年会,聚焦自然语言生成与智能写作及其应用技术,是自然语言生成领域最重要的学术会议 ...
基于生成对抗网络的自然语言生成(Natural language generation with Generative Adversarial Networks)
作者:禅与计算机程序设计艺术基于生成对抗网络的自然语言生成(Natural language generation with Generative Adversarial Networks) 引言 ...

自然语言生成技术现状调查：核心任务、应用和评估（4）

6.生成创意和娱乐文本

6.1生成双关语和笑话

6.2生成隐喻和比喻

6.3生成叙述

6.4创造语言：结束语

7.评价

7.1内在方法

7.1.1主观（人类）判断

7.1.2使用语料库的客观人像测量

7.1.3体裁兼容性和文体效果评估

7.2外在评价方法

7.3黑盒与玻璃盒评估

7.4论评价方法之间的关系

7.4.1衡量标准与人类判断

7.4.2使用受控实验

7.5评估：结论性意见

8.讨论和未来方向

8.1为什么（以及如何）使用NLG？

8.2NLG是否包括文本到文本？

8.3寻找应用的理论和模型？

8.4我们从这里走到哪里？

9.结论

自然语言生成技术现状调查：核心任务、应用和评估（4）相关推荐

最新文章

热门文章