首个中文多项选择阅读理解数据集:BERT最好成绩只有68%
2019-12-19 12:18:15
赖可 发自 亚龙湾移动凹非寺
量子位 报道 | 公众号 QbitAI
横扫一众基准测试的BERT等NLP模型,好像没那么强了。
因为它们遇到了一个中文数据集。
康奈尔大学留学生发布了第一个自由形式的中文阅读理解多选题数据集,其中86.6%的问题都需要文档外的知识。
在这个数据集上,各个模型的正确率最高也只有68%,比起人类的96%的表现,还是差距明显。
数据集C3
机器阅读理解最大的挑战就是回答需要外部先验知识的问题。而且中文在这方面的表现比英文差很多,一个原因是缺乏专门的数据集。
这份数据集命名为C3(free-form multiple-Choice Chinese machine reading Comprehension dataset)
收集的主要是形式自由的多项选择题,阅读材料来自汉语水平考试和民族汉语考试,包括试卷和练习。
一共有13369篇文章和19577个问题,其中的60%用是训练集,20%是开发集,20%是测试集。
数据集从类型上分为两个部分:
分别是正式书面文本和口语化文本。书面文本比口语化文本更长,但是两者都不能拿来作机器阅读长文章的训练数据集。
数据集统计情况如下表:
需要先验知识的问题共分为十类
研究者分析了回答什么样的问题需要先验知识。如果一个问题能够在文档中进行匹配,回答起来就几乎不需要先验知识,而需要先验知识的问题分为三类:
1、关于语言的知识:需要词汇/语法知识,例如:习语、谚语、否定、反义词、同义词、单词可能的含义和语法转换。
2、关于某个特定领域:需要但不限于一些事实上的知识,这些事实与特定领域的概念,概念定义和属性,概念之间的关系。
3、一般世界:需要有关世界如何运作的一般知识,或者被称为常识。在这个数据集中主要指的是百科全书假定不需要解释读者就知道的知识。
在第三类中,研究者又将问题分为8个子类型:
1、计算:数值计算和分析
2、内涵:关于对某物或某人隐含的感情、情感和语气
3、因果:事件B引发事件A,通常用来回答“为什么”的问题
4、暗示:要点、建议、意见、事实或事件没有在文本中明确表达
5、部分与整体:需要知道A是B的一部分
6、场景:观察到人类行为或活动以及相应的时间/位置信息。还需要了解参与者的个人信息(如职业、教育程度、个性、心理或身体状况),以及参与者之间的关系。
7、前提:如果A没有发生,那么B不会发生。
8、其它
基于支持回答问题句子的最少数量。研究者将所有问题分为三类:单个,多个,独立
所有问题的分类情况和简写标记如下表:
目前训练结果离人类水平差距大
用已有的方法和神经网络模型,研究者对数据集进行了训练,结果如下:
语言模型的预训练效果比基于规则的方法、基于Bi-LSTM的模型要明显优秀,但是性能最佳的模型只正确率也只有68%,比起人类的96%的表现,还是差距明显。
更好的模型还有待开发。
传送门
https://github.com/nlpdata/c3
https://arxiv.org/abs/1904.09679
— 完 —
首个中文多项选择阅读理解数据集:BERT最好成绩只有68%相关推荐
- 首个中文多项选择阅读理解数据集:BERT最好成绩只有68%,86%问题需要先验知识...
赖可 发自 亚龙湾移动凹非寺 量子位 报道 | 公众号 QbitAI 横扫一众基准测试的BERT等NLP模型,好像没那么强了. 因为它们遇到了一个中文数据集. 康奈尔大学留学生发布了第一个自由形式的中 ...
- ICLR 2020 | ReClor: 一个需要逻辑推理的阅读理解数据集
2020-05-12 20:22:59 语言预训练模型在现有流行的阅读理解数据集上取得了惊人的效果,因此,现在是时候引入更复杂的数据集来推动该领域朝着更复杂推理的方向发展了. 新加坡国立大学冯佳时团队 ...
- NLP-阅读理解:“阅读理解”综述(Machine Reading Comprehension, MRC)【完形填空、多项选择、抽取式(答案片段抽取)、生成式(自由作答)】《机器阅读理解数据集》
<原始论文:Neural Machine Reading Comprehension: Methods and Trends> 一.阅读理解概述 所谓的机器阅读理解(Machine Rea ...
- 一种基于抽取式的中文机器阅读理解数据集CMRC2018
一种基于抽取式的中文机器阅读理解数据集CMRC2018 A Span-Extraction Dataset for Chinese Machine Reading Comprehension Lead ...
- 云从科技上交大提出DCMN+ 模型,在多项阅读理解数据集上成绩领先
2020 年 2 月 7 日-2 月 12 日,AAAI 2020 将于美国纽约举办.不久之前,大会官方公布了今年的论文收录信息:收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇, ...
- DeepMind推出更难的机器阅读理解数据集,要让AI读懂整本书
夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI 在机器阅读理解界的ImageNet--SQuAD挑战赛中,排在前几名的算法,都能拿到八十多分的成绩. 可是,为什么我们依然觉得机器不太听/看 ...
- CORGI-PM:首个中文性别偏见探索和缓解数据集
来自:NLP工作站 写在前面 今天给大家带来一篇性别偏见探索和缓解的中文数据集-CORGI-PM,全名<CORGI-PM: A Chinese Corpus For Gender Bias Pr ...
- 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型...
作者 | HFL 来源 | 哈工大讯飞联合实验室(ID:rgznai100) 为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中 ...
- 30万奖金海华AI挑战赛 | 用机器挑战中文阅读理解
摘要 2021 海华 AI 挑战赛已经正式开赛,总奖金 30 万元(技术组 21 万元,中学组 9 万元). 本次比赛的主题为机器阅读理解,数据来自小学和中学语文考试中的语文阅读理解试题.其中,还包括 ...
最新文章
- Linux qfile中文文件名,QFile无法打开包含unicode字符的文件名
- 009_html标准属性
- Scala入门到精通——第四节 Set、Map、Tuple、队列操作实战
- numpy基础(part12)--快速傅里叶变换模块
- uva 524(Prime Ring Problem UVA - 524 )
- sed,awk,grep,trap,trap,cut,tr,curl,find
- 不用于mysql权限管理的24260_[MySQL Reference Manual] 24 MySQL sys框架
- Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分
- R语言在图上标出点坐标_利用R语言的leaflet包根据GPS信息在地图上标点
- 2022年信息安全工程师考试大纲
- Unity app 如何打开商店
- 【其他】bilibili下载的m4s格式视频如何还原为mp4
- ros机器人gazebo仿真
- 绝地求生服务器维护需要多久,绝地求生8月4日更新到几点?绝地求生维护一次需要多长时间?...
- 海上升明月、天涯共此时!
- 如何用python画散点图矩阵_Python的散点图竟然能画这么好看
- 自动化与电气工程及其自动化哪个行业好?
- Git remote: error: this exceeds file size limit of 100.0 MB
- Linux常用工具大全
- 【Wikipedia爬虫工具包的使用】请求超时、代理错误、SSLError
热门文章
- 关于numy中np.expand_dims方法的理解?
- 关于Java的Classpath详解
- 开启注册丨NeurlPS 2021论文预讲会议题全公开,4大主题和25场报告等你来
- KDD2021最佳论文奖揭晓!胡侠获新星奖,论文接收率仅15%
- AI Debate2 | 李飞飞提「AI北极星」,卡尼曼指「系统 1」理解有误
- 苹果首任AI总监Ruslan Salakhutdinov:如何应对深度学习的两大挑战?(附视频)
- 智源研究院发布“知识疫图-全球新冠疫情智能驾驶舱”,一键预测、跟踪和决策辅助...
- Ubuntu无损扩展分区(目录)容量的方法
- 35岁危机可能是真的!调查显示在领英上年龄越大越难找工作,得贴年轻头像才行...
- 手绘图解 | 机器学习最常见的30个基本概念