每天给你送来NLP技术干货!


第二十一届中国计算语言学大会(CCL 2022)开幕在即,其中的汉语学习者文本纠错(CLTC)评测任务也已进入收官阶段。本次评测共吸引了140多支队伍报名参赛,各队伍同场竞技,取得了令人赞叹的成绩!

本次评测旨在推动汉语学习者文本纠错任务的发展,由北京语言大学、清华大学、东北大学、苏州大学、阿里巴巴达摩院联合举办。本次评测整合了已有文本纠错任务和数据,并公开了一批新数据,共设置有五个赛道,覆盖了拼写检查、语法纠错、质量评估三个任务。

评测回顾

近年来,学界关于汉语学习者文本纠错已展开多方面、多角度的研究,如拼写检查(Chinese Spelling Check, CSC)、语法纠错(Grammatical Error Correction, GEC)、语法错误检测(Grammatical Error Diagnosis, GED)等,也已发布有一些相关的评测任务。

延续此前研究,我们在 CCL 2022 会议上举办了本次评测。本次评测具有以下几点特色:

首先,将语法纠错任务相关资源整合、汇聚于赛道二、三、四。其中,赛道二要求对留学生在汉语水平考试(HSK)作文中出现的错误进行检测和纠正,并首次公开了历年 CGED 评测数据用于训练和开发。赛道三关注语法纠错中的多维度问题,即从最小改动(Minimal Edit)和流利提升(Fluency Edit)两个方面给出多种句子修改方案,使用 YACLC 数据集用于开发和测试。赛道四则关注文本纠错的多来源问题,考虑不同来源的文本中可能蕴含的不同类型的语法错误,并且使用 MuCGEC 数据集用于开发和测试。

其次,为进一步推进中文拼写检查研究,本次测评基于 YACLC 数据集构建并公开了 YACLC-CSC 数据集,并作为赛道一的开发和测试数据。据我们所知,该数据集为首个简体中文拼写检查数据集。最后,本次评测扩展了文本纠错任务,首次将质量评估(Quality Estimation, QE)纳入评测任务。在使用不同语法纠错方法,或基于柱搜索(Beam Search)获得多种修改方案后,质量评估任务要求评估不同修改结果的质量。该任务可以用于模型集成或其他情况下的结果重排序(Re-Ranking),可以在不改变模型的情况下显著提升修改效果。然而目前该任务所受关注较少,评测组织方倡议学界对这一任务加以重视,多加研究。

参与情况

本次评测自6月份发布数据集,7月份公开评测提交入口,经过一个多月的激烈竞争,于8月25日关闭提交。评测期间,各赛道共有140多支队伍参赛,报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所,以及好未来、CVTE等企业。

为促进学界对汉语文本学习者纠错问题的研究,所有赛道均开放了供长期提交结果的验证榜单。借助本次评测公开的数据集,研究者可以将自己的方法和相关研究进行公平比较。

评测官方网站:https://blcuicall.github.io/CCL2022-CLTC/

评测数据仓库:https://github.com/blcuicall/CCL2022-CLTC

赛道一、二、三、五排行榜:http://cuge.baai.ac.cn/#/ccl_yaclc

赛道四排行榜:https://tianchi.aliyun.com/dataset/dataDetail?dataId=131328


获奖信息

本次评测共有140多支队伍参赛,报名参赛的队伍包括清华大学、北京大学、中国科学院等高校和科研院所,以及好未来、CVTE等企业。

现将各赛道获奖信息公开如下:

赛道一:中文拼写检查

  • 一等奖:哒哒(达观数据)

  • 二等奖:iFunCun(方寸无忧)

  • 三等奖:csc_runner(CVTE)

赛道二:中文语法错误检测

  • 一等奖:NLP的未来(好未来)

  • 二等奖:一一(达观数据)

  • 三等奖:中国足球队(蜜度)

赛道三:多维度汉语学习者文本纠错

  • 一等奖:kk(北京大学)

  • 二等奖:改正带小助手(苏州大学)

  • 三等奖:BUPTCL(北京邮电大学)

赛道四:多参考多来源汉语学习者文本纠错

  • 一等奖:啊对对对(清华大学)、鱼饼啾啾(北京大学)

  • 二等奖:棒棒冰(CVTE)

  • 三等奖:后厂村9号(海泰方圆)

赛道五:语法纠错质量评估

  • 一等奖:CPIC(中国太平洋保险)

衷心感谢各参赛队伍的参与,向获奖队伍以及所有参赛队伍表示祝贺!

致谢

本次评测期间,许多同学在数据处理、基线模型实验、方法复现以及组织管理的各个环节付出了宝贵的时间和辛勤的劳动,他们的付出保证了本次评测得以成功举办。在此,我们向这些同学们表示感谢!

北京语言大学:王莹莹、孔存良、方雪至、廖田昕、刘鑫、鲁鹿鸣、徐萌、刘洋、吴鎏

清华大学:梁念宁

苏州大学:章岳

东北大学:周天硕

编辑:孔存良、王梦焰、常鸿翔

扫码关注我们

BLCU-ICALL

语言监测与智能学习

公告 | CCL 2022 汉语学习者文本纠错评测结果出炉!相关推荐

  1. CCL2022 | 汉语学习者文本纠错评测期待您的参与!

    每天给你送来NLP技术干货! 汉语学习者文本纠错任务(Chinese Learner Text Correction,CLTC)旨在自动检测并修改汉语学习者文本中的标点.拼写.语法.语义等错误,从而获 ...

  2. 互联网晚报 | 爱奇艺回应因限制投屏被起诉事件;“鱼跃医疗”回应被罚270万元;2022年全国城市GDP十强全部出炉...

    爱奇艺:已收到关于投屏清晰度变更应诉通知,会认真审慎对待 据信号财经报道:近日,爱奇艺因为"限制投屏"一事连上多个热搜.据现代快报消息,广东一名用户因此将爱奇艺告上法庭,北京市互联 ...

  3. 阿里云、腾讯云、华为云哪个好?迄今最全面的云服务评测报告出炉(转)

    阿里云.腾讯云.华为云哪个好?迄今最全面的云服务评测报告出炉 云计算厂商到底哪家强,各家有各家的说法,今天就来跟你聊一聊,各家厂商的云计算技术到底怎么样.我选取了国内知名度比较高的几家厂商,通过弹性计 ...

  4. 中计播客 | iPhone X评测结果出炉 表现不如iPhone 8

    Hi~今天是播客陪你的第6天 科技资讯 美国<消费者报告>iPhone X评测出炉 美国权威机构<消费者报告>日前分享了最终的iPhone X测试结果,虽然其将iPhone X ...

  5. 国内首届中文人机对话技术评测赛果出炉,两项任务冠军团队都分享了哪些技术细节?...

    近年来,人机对话技术受到了学术界和产业界的广泛关注.学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成.自然语言理解.对话管理以及自然语言生成等研究的进展:产业上,众多产业界 ...

  6. 2022年度最佳开源软件榜单出炉!

    因公众号更改推送规则,请点"在看"并加"星标"第一时间获取精彩技术分享 点击关注#互联网架构师公众号,领取架构师全套资料 都在这里 0.2T架构师学习资料干货分 ...

  7. 《2022年Java开发者生产力报告》出炉啦

    2022 年,Perforce 公司没有「爽约」,< 2022年 Java 开发人员生产力报告 >如期而至. 该报告基于对全球 Java 开发专业人士的调查,持续时间为 2021 年 10 ...

  8. 2022年全球程序员收入报告出炉:国内程序员人均56w年薪。。网友说:我拖后腿了!...

    编译 | 凌敏.核子可乐 又一地区强制要求企业公开薪酬数据,律师:未来薪资透明才是常态. 近日,美国数据收集网站 Levels.fyi 发布了 2022 年度程序员薪酬报告,根据职位.地域对各公司的薪 ...

  9. 45页精华《2022中国建筑行业数字化转型研究报告》出炉(附下载)

    近日,亿欧智库发布<2022中国建筑行业数字化转型研究报告>.该报告结合了桌面研究以及行业内多方企业专家访谈,对建筑产业链内的重点场景应用以及建筑数字化服务商产业格局,进行了研究探索,为行 ...

最新文章

  1. 存储过程和存储函数初步
  2. 积累这么多年的面试题与经验分享,免费下载
  3. 谋定国际农民丰收节贸易会·万祥军:以色列农业逆袭变局
  4. UVa - 11988 Broken Keyboard(数组模拟链表)
  5. TCP传输过程中丢包问题
  6. 只需两步手把手教你玩转图像识别
  7. 微信小程序|开发实战篇之九-image-picker图片选择器组件及其子组件
  8. 理想汽车市值逼近蔚来,王兴曾多次在饭否为其站台
  9. 浅谈android的am命令
  10. 【案例分享】KTV网络机顶盒
  11. 爬取百度贴吧发帖信息并保存到scv文件中
  12. 阿里电话面试面试题总结,附答案!
  13. 算法提高 阮小二买彩票
  14. javaweb_util_excel模板横向纵向循环
  15. 中国云计算行业研究报告
  16. discuz接入七牛sdk
  17. 佐客牛排机器人餐厅_2018年中国最火的三家餐厅!秘密竟是机器人服务员?
  18. CLI、CLR、CTS、CLS
  19. 2020-05-06
  20. 2022.12.16 英语单词背诵

热门文章

  1. css实现三角,对勾
  2. Linux集群 分布式存储-MFS部署
  3. rap技术原理_RAP如何自动在 方法上生成前端开发文档
  4. VMware虚拟机网卡重启失败
  5. 计算机培训机房装修,计算机机房装修基本流程 计算机机房装修要注意什么
  6. MAX®10器件 创建描述UFM和CFM(已创建.sof和.hex文件)的 二进制文件
  7. 基于EVEBITDA倍数估值法Apha冲略附源代码
  8. 12种逼死“强迫症”的创意家居设计
  9. javascript/nodejs 中获取当前时间(昨天、今天、明天)
  10. 带头大哥777:JavaScript开发的40+个经典技巧