作者:李博,方格翔,杨洋,王泉森,叶蔚,赵文,张世琨
单位:北京大学知识计算实验室(KCL)
论文:https://arxiv.org/abs/2304.11633
代码和数据开源:https://github.com/pkuserc/ChatGPT_for_IE

摘要

本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力,作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。

作者发现,在标准信息提取设置下,ChatGPT的性能较差,但在开放式信息提取设置下表现出色,且其决策的解释具有高质量和可信度。

不过,ChatGPT存在过度自信的问题,导致其校准度较低。此外,ChatGPT在大多数情况下对原始文本的忠实度很高。

最后,作者手动注释并发布了7个细粒度信息提取任务的测试集,包含14个数据集,以进一步促进研究。

主要思路

ChatGPT是最近非常流行的对话大模型,可以与用户进行流畅和高效的交流。但是由于ChatGPT的训练细节和数据没有完全公开,并且ChatGPT的输出会带有一些观点和偏向,这些观点都可能会影响用户对事物的判断和决策,甚至对用户造成负面作用[1-4]。

因此,对于ChatGPT的评测方面,不止需要关注给定下游任务的性能评测,同时还需要考虑到使用大模型过程中用户可能需要的一些方面,如ChatGPT对决策判断的可解释、预测自信程度和对于输入原文的忠实程度等

基于以上分析,本文希望在ChatGPT性能的基础上,通过更多的维度对ChatGPT模型的能力进行全方位的评估。

具体来说,我们希望通过以下4个方面来评估ChatGPT的综合性能:

1)性能(Performance)。我们研究的一个重要方面是全面评估ChatGPT在各种任务上的整体性能,如准确率和F1值等。并将其与其他热门模型进行比较。通过从不同角度考察其性能,我们旨在提供对ChatGPT在下游信息提取任务方面能力的详细理解。

2)可解释性(Explainability)。ChatGPT的可解释性对于其在现实场景中应用是至关重要的[5-7],因为用户希望在获取模型输出的同时,让模型给出合理的预测理由和判断依据。在我们的研究中,我们将同时衡量ChatGPT的自我检查和人工检查的可解释性,重点关注其为人类提供有用和准确的推理过程解释的能力。

3)校准性(Calibration)。测量“calibration”有助于评估模型的预测不确定性[8,9]。校准度高的分类器应该具有准确反映正确性概率的预测分数[10,11]。鉴于深度神经网络在其预测中表现出过度自信的倾向,我们期望识别ChatGPT的潜在不确定性或过度自信现象。

4)忠诚度(Faithfulness)。模型对预测解释的忠诚度对于用户而言非常重要[12,13]。我们尝试评估ChatGPT提供的解释是否与输入内容一致。

基于以上四个方面,我们设计了15个不同的评测指标,其中10个为ChatGPT自动输出的指标,5个为多位领域专家人工标注的指标。具体指标如下:

任务数据集及实验设置

我们选择了自然语言处理中十分重要的研究任务——信息抽取,作为任务载体,对ChatGPT的以上度量指标进行全方位的评估。信息抽取(information extraction, IE)涉及异构结构提取、事实知识使用和多样化的目标,因此此类任务是评估ChatGPT能力的理想场景。本文中,我们选择了7个信息抽取任务共14个数据集进行测试,包括是实体识别,关系抽取和事件抽取等。

在实验过程中,我们采用了2种设置,即标准信息抽取(Standard-IE)和开放式信息抽取(OpenIE)。Standard-IE设置通常用于以前的工作中,它使用特定于任务的数据集与监督式学习范式对模型进行微调。对于ChatGPT,由于我们无法直接微调参数,因此我们评估ChatGPT从一组候选标签中选择最合适答案的能力。具体而言,这种设置基于包括任务描述、输入文本、提示和标签集的指示。任务描述描述了具体的IE任务,提示包括引导ChatGPT输出所需特征(即上述15个特征中的一个或多个),而标签集基于每个数据集包含所有候选标签。OpenIE设置是比Standard-IE设置更高级和具有挑战性的情境。在此设置中,我们不会向ChatGPT提供任何候选标签,仅依赖其理解任务描述、提示和输入文本的能力来生成预测。我们的目标是评估ChatGPT生成合理事实知识的能力。实验结果对比的模型包括BERT、RoBERTa和每个任务的SOTA模型。

实验结果及结论

1)Standard-IE设置

主要结论
1)在大部分情况下,ChatGPT的性能与BERT类模型和SOTA模型的性能差距较大;
2)在简单任务,如entity typing和relation classification问题下,ChatGPT的性能较好。

2)Open-IE设置

主要结论
ChatGPT在开放式信息抽取设置下,输出的结果较为令人满意,在很多任务上能够在大多数情况下输出人类认可的结果。这说明ChatGPT已经学习了很多正确且可以合理输出的常识知识。

3)可解释性

主要结论
通过ChatGPT和人工对给出的判断理由进行标注,我们发现ChatGPT输出的解释非常可靠,绝大多数情况下,人类与ChatGPT都认为给出的理由是合理的。以上数据表明,ChatGPT对于自己预测的解释可信度较高。

4)校准度

主要结论
1)表6展示的是各个模型预测的置信度,可以看出,BERT类模型和ChatGPT对于自己的预测都十分自信,均给出了很高的置信度。相比而言,因为ChatGPT在Standard-IE中其性能不佳,所以给出这么高的置信度表明模型有很严重的过度自信倾向。同时,模型对于预测错误的样本,置信度明显较低。也就是说,当模型给出的预测置信度较低时,应该对预测结果进行校验。
2)表7通过评估校准度的指标ECE,我们可以明显看出ChatGPT有最低的校准度,即预测置信度偏高,过度自信问题严重。

5)忠实度

主要结论
通过领域专家对模型输出解释和输入原文的对比,进行了人工的忠实度度量。我们发现,ChatGPT的解释是非常忠实于原文的,基本没有在给定上下文的情况下,通过编造理由进行预测的行为。

总结

本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测。针对于7个细粒度信息抽取任务和14个数据集,从模型性能、可解释性、校准度和忠实度这四个角度,设计了15个指标(10个从ChatGPT自动获取的指标,5个领域专家标注的指标),对ChatGPT进行了全面评估。实验结果表明,ChatGPT在标准IE设置下,性能与有监督模型有很大差距。

但是,ChatGPT在OpenIE的场景下输出非常符合人类预期。同时,通过领域专家标注表明,ChatGPT可以对自己的预测结果给出可靠的解释,这表明ChatGPT有极强的解释能力。但是ChatGPT会对自己的预测过度自信,给出非常高的预测置信度,从而导致较低的校准度。

最后,本文还验证了ChatGPT的决策非常忠实于原文,即不会通过虚构来解决或者解释问题。本文说明,ChatGPT在信息抽取领域仍然有很多的改进角度和提升空间。


进NLP群—>加入NLP交流群

通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估相关推荐

  1. 语言nomogram校准曲线图_R语言实现Cox模型校准度曲线绘制

    01 研究背景 这是关于cox模型的第二篇文章,上一篇文章分享了运用Lasso回归如何筛选变量,将筛选后的变量绘制Nomogram图,本章分享构建模型后,如何绘制校准曲线. cox模型的验证不同于Lo ...

  2. ChatGPT 学习与使用总结

    ChatGPT 学习与使用总结 最近ChatGPT大火,2023有可能就是AGI元年了.近两个月使用下来,ChatGPT给我最深刻的感觉就是它所具备的理解和思维能力,第一次体验时真的是非常震撼,完全是 ...

  3. 阿里妈妈展示广告预估校准技术演进之路

    来源:DataFunTalk本文约6500字,建议阅读15分钟 本文将介绍校准算法在阿里妈妈展示广告中的应用和演进,将从背景介绍.校准算法演进.工程实践以及总结展望四个方面展开介绍. 分享嘉宾:黄思光 ...

  4. 时代聚焦AI安全——可解释性

    今年的NIPS多集中在人工智能安全上,此外精彩的部分还有凯特·克劳福德关于人工智能公平性问题上被忽视的主题演讲.ML安全研讨会.以及关于"我们是否需要可解释性?"可解释ML讨论会辩 ...

  5. 还在随缘炼丹?一文带你详尽了解机器学习模型可解释性的奥秘

    一只小狐狸带你解锁NLP/ML/DL秘籍 正文来源:腾讯技术工程 所谓炼丹,就是将大量灵材使用丹炉将其凝炼成丹.练成的灵丹蕴含灵材的大部分特性,方便携带,容易吸收.高级仙丹在炼制中更是能吸收天地灵气从 ...

  6. 机器学习模型可解释性的详尽介绍

    机器之心平台 来源:腾讯技术工程 模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮 ...

  7. 校准曲线的绘制的小技巧

    欢迎关注"生信修炼手册"! 在之前关于列线图的文章中,我们介绍了利用列线图来可视化预后模型,同时也提到了模型性能的几种评估方式,校准度以及校准曲线就是其中一种方式. 校准度,用来描 ...

  8. 深度学习模型可解释性初探

    1. 可解释性是什么 0x1:广义可解释性 广义上的可解释性指: 在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息. 比如我们在调试 bug 的时候,需要通过变量审查和 ...

  9. 二分类资料校准曲线calibration curve的绘制

    本文首发于公众号:医学和生信笔记 " 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化.主要分享R语言做医学统计学.meta分析.网络药理学.临床预测模型.机器学习.生物 ...

最新文章

  1. 逆向-攻防世界-maze
  2. Ubuntu下安装QT5.4.1
  3. VMware 虚拟机
  4. 信息系统项目管理知识--组织级项目管理
  5. Zookeeper02_zk集群搭建
  6. 对于嵌入式交叉编译总结
  7. VS2008中使用JSONCPP方法小结
  8. 热搜!华为:这类程序员领10亿,程序员:真香!你怎么看?
  9. 支付系统设计:对账处理(二)
  10. python数据结构-栈(stack)
  11. ecshop备份数据 ecshop转移数据 ecshop更换主机
  12. 【MFC相关问题】vs 2019 出现 building MFC application with /MD [d] (CRT dll version) requires MFC shared
  13. Python覆盖率分析工具_Coverage
  14. 安装360后无法远程sqlserver error:64
  15. 什么能让我们用青春、用生命去垫付?
  16. Ubuntu18.04(Gnome桌面)主题美化,Mac私人定制
  17. 10 个超棒的 jQuery 视频插件
  18. 超市管理系统具体模块
  19. win7 计算机打不开搜狗,Win7电脑搜狗输入法不见了如何解决?
  20. 实验室的温湿度要求及其控制措施的详细讲解

热门文章

  1. linuc和python常用命令是一样的么_linux常用命令汇总
  2. matlab打开dat形式文件_matlab的各种数据读取(txtdatmat等格式)文件打开关闭
  3. 用于金融的python——蒙特卡洛法估计欧式看涨期权
  4. @serializedname注解的意思
  5. java学习中的重难点(多加练习)
  6. 【转载】关于Opencv里SIFT和SURF是有专利算法的说明
  7. MATLAB编程语言简介
  8. 完全删除CAD残留,告别“已安装”
  9. uefi能重置系统吗_windows uefi怎么重装系统
  10. IT大佬竞争物联网新风口 产业爆发仍受限于标准