通过准确性、可解释性、校准度和忠实度，对ChatGPT的能力进行全面评估

作者：李博，方格翔，杨洋，王泉森，叶蔚，赵文，张世琨
单位：北京大学知识计算实验室（KCL）
论文：https://arxiv.org/abs/2304.11633
代码和数据开源：https://github.com/pkuserc/ChatGPT_for_IE

摘要

本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力，作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。

作者发现，在标准信息提取设置下，ChatGPT的性能较差，但在开放式信息提取设置下表现出色，且其决策的解释具有高质量和可信度。

不过，ChatGPT存在过度自信的问题，导致其校准度较低。此外，ChatGPT在大多数情况下对原始文本的忠实度很高。

最后，作者手动注释并发布了7个细粒度信息提取任务的测试集，包含14个数据集，以进一步促进研究。

主要思路

ChatGPT是最近非常流行的对话大模型，可以与用户进行流畅和高效的交流。但是由于ChatGPT的训练细节和数据没有完全公开，并且ChatGPT的输出会带有一些观点和偏向，这些观点都可能会影响用户对事物的判断和决策，甚至对用户造成负面作用[1-4]。

因此，对于ChatGPT的评测方面，不止需要关注给定下游任务的性能评测，同时还需要考虑到使用大模型过程中用户可能需要的一些方面，如ChatGPT对决策判断的可解释、预测自信程度和对于输入原文的忠实程度等。

基于以上分析，本文希望在ChatGPT性能的基础上，通过更多的维度对ChatGPT模型的能力进行全方位的评估。

具体来说，我们希望通过以下4个方面来评估ChatGPT的综合性能：

1）性能（Performance）。我们研究的一个重要方面是全面评估ChatGPT在各种任务上的整体性能，如准确率和F1值等。并将其与其他热门模型进行比较。通过从不同角度考察其性能，我们旨在提供对ChatGPT在下游信息提取任务方面能力的详细理解。

2）可解释性（Explainability）。ChatGPT的可解释性对于其在现实场景中应用是至关重要的[5-7]，因为用户希望在获取模型输出的同时，让模型给出合理的预测理由和判断依据。在我们的研究中，我们将同时衡量ChatGPT的自我检查和人工检查的可解释性，重点关注其为人类提供有用和准确的推理过程解释的能力。

3）校准性（Calibration）。测量“calibration”有助于评估模型的预测不确定性[8,9]。校准度高的分类器应该具有准确反映正确性概率的预测分数[10,11]。鉴于深度神经网络在其预测中表现出过度自信的倾向，我们期望识别ChatGPT的潜在不确定性或过度自信现象。

4）忠诚度（Faithfulness）。模型对预测解释的忠诚度对于用户而言非常重要[12,13]。我们尝试评估ChatGPT提供的解释是否与输入内容一致。

基于以上四个方面，我们设计了15个不同的评测指标，其中10个为ChatGPT自动输出的指标，5个为多位领域专家人工标注的指标。具体指标如下：

任务数据集及实验设置

我们选择了自然语言处理中十分重要的研究任务——信息抽取，作为任务载体，对ChatGPT的以上度量指标进行全方位的评估。信息抽取（information extraction, IE）涉及异构结构提取、事实知识使用和多样化的目标，因此此类任务是评估ChatGPT能力的理想场景。本文中，我们选择了7个信息抽取任务共14个数据集进行测试，包括是实体识别，关系抽取和事件抽取等。

在实验过程中，我们采用了2种设置，即标准信息抽取（Standard-IE）和开放式信息抽取（OpenIE）。Standard-IE设置通常用于以前的工作中，它使用特定于任务的数据集与监督式学习范式对模型进行微调。对于ChatGPT，由于我们无法直接微调参数，因此我们评估ChatGPT从一组候选标签中选择最合适答案的能力。具体而言，这种设置基于包括任务描述、输入文本、提示和标签集的指示。任务描述描述了具体的IE任务，提示包括引导ChatGPT输出所需特征（即上述15个特征中的一个或多个），而标签集基于每个数据集包含所有候选标签。OpenIE设置是比Standard-IE设置更高级和具有挑战性的情境。在此设置中，我们不会向ChatGPT提供任何候选标签，仅依赖其理解任务描述、提示和输入文本的能力来生成预测。我们的目标是评估ChatGPT生成合理事实知识的能力。实验结果对比的模型包括BERT、RoBERTa和每个任务的SOTA模型。

实验结果及结论

1）Standard-IE设置

主要结论：
1）在大部分情况下，ChatGPT的性能与BERT类模型和SOTA模型的性能差距较大；
2）在简单任务，如entity typing和relation classification问题下，ChatGPT的性能较好。

2）Open-IE设置

主要结论：
ChatGPT在开放式信息抽取设置下，输出的结果较为令人满意，在很多任务上能够在大多数情况下输出人类认可的结果。这说明ChatGPT已经学习了很多正确且可以合理输出的常识知识。

3）可解释性

主要结论：
通过ChatGPT和人工对给出的判断理由进行标注，我们发现ChatGPT输出的解释非常可靠，绝大多数情况下，人类与ChatGPT都认为给出的理由是合理的。以上数据表明，ChatGPT对于自己预测的解释可信度较高。

4）校准度

主要结论：
1）表6展示的是各个模型预测的置信度，可以看出，BERT类模型和ChatGPT对于自己的预测都十分自信，均给出了很高的置信度。相比而言，因为ChatGPT在Standard-IE中其性能不佳，所以给出这么高的置信度表明模型有很严重的过度自信倾向。同时，模型对于预测错误的样本，置信度明显较低。也就是说，当模型给出的预测置信度较低时，应该对预测结果进行校验。
2）表7通过评估校准度的指标ECE，我们可以明显看出ChatGPT有最低的校准度，即预测置信度偏高，过度自信问题严重。

5）忠实度

主要结论：
通过领域专家对模型输出解释和输入原文的对比，进行了人工的忠实度度量。我们发现，ChatGPT的解释是非常忠实于原文的，基本没有在给定上下文的情况下，通过编造理由进行预测的行为。

总结

本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测。针对于7个细粒度信息抽取任务和14个数据集，从模型性能、可解释性、校准度和忠实度这四个角度，设计了15个指标（10个从ChatGPT自动获取的指标，5个领域专家标注的指标），对ChatGPT进行了全面评估。实验结果表明，ChatGPT在标准IE设置下，性能与有监督模型有很大差距。

但是，ChatGPT在OpenIE的场景下输出非常符合人类预期。同时，通过领域专家标注表明，ChatGPT可以对自己的预测结果给出可靠的解释，这表明ChatGPT有极强的解释能力。但是ChatGPT会对自己的预测过度自信，给出非常高的预测置信度，从而导致较低的校准度。

最后，本文还验证了ChatGPT的决策非常忠实于原文，即不会通过虚构来解决或者解释问题。本文说明，ChatGPT在信息抽取领域仍然有很多的改进角度和提升空间。

进NLP群—>加入NLP交流群