信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域,一直受到学术界和工业界广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务,难以评估相关技术与方法在通用场景和任务下的抽取性能。

为此,中国科学院软件研究所、百度公司与千言开源数据集项目(www.luge.ai)联合发起业界首个通用的信息抽取评测——“CCKS-千言通用信息抽取竞赛”。本赛事是千言多形态信息抽取的全新升级,不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方法面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。

竞赛于4月11日开启报名,并将在8月25日于2022年全国知识图谱与语义计算大会(CCKS-2022)召开评测研讨会并进行颁奖。百度将为参赛选手提供全面的技术资源、平台支持和丰厚奖池。

报名及竞赛详情链接:

https://aistudio.baidu.com/aistudio/competition/detail/161/0/introduction

任务形式

信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,主要由抽取类别(人物名称、企业上市事件)及目标结构(实体、关系、事件等)组成。

本评测的数据及抽取框架主要来自于百度通用信息抽取的应用案例。本次评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务,以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。

任务示例如下:

示例输入1 事件抽取

输入文本(Text):

2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!

抽取需求(Schema):

事件定义:

参赛选手在体育竞赛中夺得第一名。

<冠军> 于 <夺冠时间> 在 <夺冠赛事>获得冠军。

示例输出1

信息结构(Structure):

示例输入2 对话情感抽取

输入文本(Text):

A: 我昨晚又看了肖申克的救赎,简直百看不厌

B: 是的,它是几代人的经典。

A: 不过,这部剧的主演,我觉得蒂姆罗宾斯的演技不算那么出众。

抽取需求(Schema):

情感定义:

目标对象: 情感关系的对象

情感表达: 表达正/负向情感的短语或者词

示例输出2

信息结构(Structure):

数据描述

最终测试分为已知抽取框架(Seen Schema)和未知抽取框架(Unseen Schema)两部分:

  • Seen Schema:举办方收集了大量开源数据集供参赛者构建模型,该赛道主要评测现有技术基于标记数据构建模型的能力,数据集列表及下载链接请见赛事报名页;

  • Unseen Schema:主要来自百度信息抽取的实际案例,举办方仅提供少量的验证数据,用于参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力。

赛程安排

1.  报名时间:4月11日—7月25日

2.  验证数据及baseline发布:4月25日

3.  新抽取框架发布:6月20日

4.  测试数据发布:7月25日

5.  测试结果提交截止:7月31日

6.  评测论文提交:8月12日

7.  CCKS会议(评测报告及颁奖):8月25日—28日

评测奖励

千言-通用信息抽取比赛的最终获奖团队将获得:

  • 丰厚奖金:第一名30000人民币、第二名20000人民币、第三名10000人民币、创新奖5000元(共设立两项)。

  • 荣誉证书:获奖团队将由赛事主办方颁发权威获奖证书。

同时,参赛者也将获得以下福利:

  • 学习交流机会:在赛事群中与参赛者、组织者深入交流;

  • 前沿技术实践:在竞赛平台展开前沿的多任务建模实践;

  • 精美礼品&参赛证明:正式报名参赛并提交最终结果的队伍每位成员将获得千言数据集精美的定制周边一份,并发放参赛证明。

任务交流平台

添加千言助手微信,发送关键词“CCKS”即可加入交流群。

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

聚焦信息抽取前沿难题,CCKS-千言通用信息抽取竞赛报名启动相关推荐

  1. 聚焦NLG前沿技术难题,千言-生成一致性评测竞赛正式启动

    点击左上方蓝字关注我们 自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误.臆想的信息?为推动相关研究,中国中文信息学 ...

  2. 聚焦可信AI与产业应用,百度联合发起千言计划实现情感分析2.0升级

    数据集是推动自然语言处理技术进步的基石.为应对自然语言处理技术应用中面临的多领域.多场景等诸多挑战,百度联合中国计算机学会.中国中文信息学会,于2020年8月共同发起中文自然语言处理数据共建计划--& ...

  3. 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...

  4. 权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点

    自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误.臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千 ...

  5. 11月千言最新评测推荐,覆盖中文对话、视频语义理解、可信AI等前沿方向

    千言数据集是百度联合中国计算机学会.中国中文信息学会共同发起的数据共建计划,千言针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式,帮助加速模型的研发.截至目前, ...

  6. “千言”开源数据集项目全面升级:数据驱动AI技术进步

    "千言"是由百度联合中国计算机学会.中国中文信息学会共同发起的面向自然语言处理的开源数据集项目,旨在推动中文信息处理技术的进步.近日,在2021年12月12日的 WAVE SUMM ...

  7. 容联云AI问鼎“千言数据集—实体链指评测“,持续打造知识语义计算能力

    容联云研发并积累了面向业务知识图谱敏捷构建与应用的核心算法能力,可快速响应业务需求,并利用"知识"增强现有的语义理解技术,解决用户的知识查询等问题. 近日,容联云知识及语义计算技术 ...

  8. PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

    相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...

  9. 千言数据集:文本相似度——BERT完成NSP任务

    以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...

最新文章

  1. [codeforces]Round #538 (Div. 2) F. Please, another Queries on Array?
  2. 来自22岁的大学生的体检报告:x光显示双肺纹理增多
  3. 撒花!中文翻译仓库链接已加入 ML.NET 官方示例网站首页
  4. [vue] vue项目有使用过npm run build --report吗?
  5. centos 没有nmtui命令_Linux free 命令
  6. [转]CNN目标检测(一):Faster RCNN详解
  7. CANopen | 移植01 - STM32H743 + Canfestival的移植并让FDCAN1运行CANopen协议
  8. [Python] L1-002. 打印沙漏-PAT团体程序设计天梯赛GPLT
  9. OC中方法与函数的区别
  10. 主流区块链底链技术横评 hyperledger fabric、fisco bcos、chainmaker
  11. Transwarp Inceptor 问题记录与解决
  12. 如何在html中加入音效,JavaScript / HTML5中的音效
  13. 如何修改已编译的dll文件
  14. renpy-视觉小说转换器-编程零基础写视觉小说
  15. c语言中if函数作用,c语言函数if的用法怎么用
  16. 监控摄像机镜头角度和距离计算表
  17. Windows下Tensorflow-silm库使用遇到ImportError: No module named 'nets'问题的解决方法
  18. excel怎么设置自动计算_Excel财务表格大全!公式已设置好,数据自动计算产生...
  19. 网上涉廉政网络舆情信息工作怎么做的平台服务方案
  20. JFET 共源级放大电路设计

热门文章

  1. 奔驰c200改装图片带社会语言字,最骚气的外观 奔驰C200改装作业
  2. 教育部调整台湾高中毕业生凭学测成绩申请大陆高校标准
  3. 使用 jacoco 连续两次执行 mvn test 报错
  4. 华为更新鸿蒙最新版本,华为鸿蒙系统升级更新
  5. 做SEO和SEM有什么区别?哪个推广效果会更好?
  6. python爱因斯坦阶梯_Python---基础---爱因斯坦阶梯问题
  7. [转]CV codes代码分类整理合集
  8. 交行信用卡不支持在国外网站上支付
  9. 计算机大赛电子杂志,信息科学与工程学院举办首届电子杂志设计大赛
  10. Talk预告 | 牛津大学胡庆拥:大场景三维点云语义理解Ⅱ