公告 | CCL 2022 汉语学习者文本纠错评测结果出炉!
每天给你送来NLP技术干货!
第二十一届中国计算语言学大会(CCL 2022)开幕在即,其中的汉语学习者文本纠错(CLTC)评测任务也已进入收官阶段。本次评测共吸引了140多支队伍报名参赛,各队伍同场竞技,取得了令人赞叹的成绩!
本次评测旨在推动汉语学习者文本纠错任务的发展,由北京语言大学、清华大学、东北大学、苏州大学、阿里巴巴达摩院联合举办。本次评测整合了已有文本纠错任务和数据,并公开了一批新数据,共设置有五个赛道,覆盖了拼写检查、语法纠错、质量评估三个任务。
评测回顾
近年来,学界关于汉语学习者文本纠错已展开多方面、多角度的研究,如拼写检查(Chinese Spelling Check, CSC)、语法纠错(Grammatical Error Correction, GEC)、语法错误检测(Grammatical Error Diagnosis, GED)等,也已发布有一些相关的评测任务。
延续此前研究,我们在 CCL 2022 会议上举办了本次评测。本次评测具有以下几点特色:
首先,将语法纠错任务相关资源整合、汇聚于赛道二、三、四。其中,赛道二要求对留学生在汉语水平考试(HSK)作文中出现的错误进行检测和纠正,并首次公开了历年 CGED 评测数据用于训练和开发。赛道三关注语法纠错中的多维度问题,即从最小改动(Minimal Edit)和流利提升(Fluency Edit)两个方面给出多种句子修改方案,使用 YACLC 数据集用于开发和测试。赛道四则关注文本纠错的多来源问题,考虑不同来源的文本中可能蕴含的不同类型的语法错误,并且使用 MuCGEC 数据集用于开发和测试。
其次,为进一步推进中文拼写检查研究,本次测评基于 YACLC 数据集构建并公开了 YACLC-CSC 数据集,并作为赛道一的开发和测试数据。据我们所知,该数据集为首个简体中文拼写检查数据集。最后,本次评测扩展了文本纠错任务,首次将质量评估(Quality Estimation, QE)纳入评测任务。在使用不同语法纠错方法,或基于柱搜索(Beam Search)获得多种修改方案后,质量评估任务要求评估不同修改结果的质量。该任务可以用于模型集成或其他情况下的结果重排序(Re-Ranking),可以在不改变模型的情况下显著提升修改效果。然而目前该任务所受关注较少,评测组织方倡议学界对这一任务加以重视,多加研究。
参与情况
本次评测自6月份发布数据集,7月份公开评测提交入口,经过一个多月的激烈竞争,于8月25日关闭提交。评测期间,各赛道共有140多支队伍参赛,报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所,以及好未来、CVTE等企业。
为促进学界对汉语文本学习者纠错问题的研究,所有赛道均开放了供长期提交结果的验证榜单。借助本次评测公开的数据集,研究者可以将自己的方法和相关研究进行公平比较。
评测官方网站:https://blcuicall.github.io/CCL2022-CLTC/
评测数据仓库:https://github.com/blcuicall/CCL2022-CLTC
赛道一、二、三、五排行榜:http://cuge.baai.ac.cn/#/ccl_yaclc
赛道四排行榜:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328
获奖信息
本次评测共有140多支队伍参赛,报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所,以及好未来、CVTE等企业。
现将各赛道获奖信息公开如下:
赛道一:中文拼写检查
一等奖:哒哒(达观数据)
二等奖:iFunCun(方寸无忧)
三等奖:csc_runner(CVTE)
赛道二:中文语法错误检测
一等奖:NLP的未来(好未来)
二等奖:一一(达观数据)
三等奖:中国足球队(蜜度)
赛道三:多维度汉语学习者文本纠错
一等奖:kk(北京大学)
二等奖:改正带小助手(苏州大学)
三等奖:BUPTCL(北京邮电大学)
赛道四:多参考多来源汉语学习者文本纠错
一等奖:啊对对对(清华大学)、鱼饼啾啾(北京大学)
二等奖:棒棒冰(CVTE)
三等奖:后厂村9号(海泰方圆)
赛道五:语法纠错质量评估
一等奖:CPIC(中国太平洋保险)
衷心感谢各参赛队伍的参与,向获奖队伍以及所有参赛队伍表示祝贺!
致谢
本次评测期间,许多同学在数据处理、基线模型实验、方法复现以及组织管理的各个环节付出了宝贵的时间和辛勤的劳动,他们的付出保证了本次评测得以成功举办。在此,我们向这些同学们表示感谢!
北京语言大学:王莹莹、孔存良、方雪至、廖田昕、刘鑫、鲁鹿鸣、徐萌、刘洋、吴鎏
清华大学:梁念宁
苏州大学:章岳
东北大学:周天硕
编辑:孔存良、王梦焰、常鸿翔
扫码关注我们
BLCU-ICALL
语言监测与智能学习
公告 | CCL 2022 汉语学习者文本纠错评测结果出炉!相关推荐
- CCL2022 | 汉语学习者文本纠错评测期待您的参与!
每天给你送来NLP技术干货! 汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点.拼写.语法.语义等错误,从而获 ...
- 互联网晚报 | 爱奇艺回应因限制投屏被起诉事件;“鱼跃医疗”回应被罚270万元;2022年全国城市GDP十强全部出炉...
爱奇艺:已收到关于投屏清晰度变更应诉通知,会认真审慎对待 据信号财经报道:近日,爱奇艺因为"限制投屏"一事连上多个热搜.据现代快报消息,广东一名用户因此将爱奇艺告上法庭,北京市互联 ...
- 阿里云、腾讯云、华为云哪个好?迄今最全面的云服务评测报告出炉(转)
阿里云.腾讯云.华为云哪个好?迄今最全面的云服务评测报告出炉 云计算厂商到底哪家强,各家有各家的说法,今天就来跟你聊一聊,各家厂商的云计算技术到底怎么样.我选取了国内知名度比较高的几家厂商,通过弹性计 ...
- 中计播客 | iPhone X评测结果出炉 表现不如iPhone 8
Hi~今天是播客陪你的第6天 科技资讯 美国<消费者报告>iPhone X评测出炉 美国权威机构<消费者报告>日前分享了最终的iPhone X测试结果,虽然其将iPhone X ...
- 国内首届中文人机对话技术评测赛果出炉,两项任务冠军团队都分享了哪些技术细节?...
近年来,人机对话技术受到了学术界和产业界的广泛关注.学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成.自然语言理解.对话管理以及自然语言生成等研究的进展:产业上,众多产业界 ...
- 2022年度最佳开源软件榜单出炉!
因公众号更改推送规则,请点"在看"并加"星标"第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0.2T架构师学习资料干货分 ...
- 《2022年Java开发者生产力报告》出炉啦
2022 年,Perforce 公司没有「爽约」,< 2022年 Java 开发人员生产力报告 >如期而至. 该报告基于对全球 Java 开发专业人士的调查,持续时间为 2021 年 10 ...
- 2022年全球程序员收入报告出炉:国内程序员人均56w年薪。。网友说:我拖后腿了!...
编译 | 凌敏.核子可乐 又一地区强制要求企业公开薪酬数据,律师:未来薪资透明才是常态. 近日,美国数据收集网站 Levels.fyi 发布了 2022 年度程序员薪酬报告,根据职位.地域对各公司的薪 ...
- 45页精华《2022中国建筑行业数字化转型研究报告》出炉(附下载)
近日,亿欧智库发布<2022中国建筑行业数字化转型研究报告>.该报告结合了桌面研究以及行业内多方企业专家访谈,对建筑产业链内的重点场景应用以及建筑数字化服务商产业格局,进行了研究探索,为行 ...
最新文章
- 存储过程和存储函数初步
- 积累这么多年的面试题与经验分享,免费下载
- 谋定国际农民丰收节贸易会·万祥军:以色列农业逆袭变局
- UVa - 11988 Broken Keyboard(数组模拟链表)
- TCP传输过程中丢包问题
- 只需两步手把手教你玩转图像识别
- 微信小程序|开发实战篇之九-image-picker图片选择器组件及其子组件
- 理想汽车市值逼近蔚来,王兴曾多次在饭否为其站台
- 浅谈android的am命令
- 【案例分享】KTV网络机顶盒
- 爬取百度贴吧发帖信息并保存到scv文件中
- 阿里电话面试面试题总结,附答案!
- 算法提高 阮小二买彩票
- javaweb_util_excel模板横向纵向循环
- 中国云计算行业研究报告
- discuz接入七牛sdk
- 佐客牛排机器人餐厅_2018年中国最火的三家餐厅!秘密竟是机器人服务员?
- CLI、CLR、CTS、CLS
- 2020-05-06
- 2022.12.16 英语单词背诵
热门文章
- css实现三角,对勾
- Linux集群 分布式存储-MFS部署
- rap技术原理_RAP如何自动在 方法上生成前端开发文档
- VMware虚拟机网卡重启失败
- 计算机培训机房装修,计算机机房装修基本流程 计算机机房装修要注意什么
- MAX®10器件 创建描述UFM和CFM(已创建.sof和.hex文件)的 二进制文件
- 基于EVEBITDA倍数估值法Apha冲略附源代码
- 12种逼死“强迫症”的创意家居设计
- javascript/nodejs 中获取当前时间(昨天、今天、明天)
- 带头大哥777:JavaScript开发的40+个经典技巧