CCKS2019-面向金融的事件主题识别思路分享

  • 1.题目概述
  • 2.方法探索
  • 3.用bert模型进行迁移学习
  • 4.答案规则的尝试
  • 5.模型的训练和调优
  • 6.赛后总结
    • 6.1不足和遗憾
    • 6.2展望

1.题目概述

本次赛题的本质是nlp的阅读理解,由于本次比赛可以使用预训练模型和外部语料库,因此如何选择预训练模型以及如何对模型输出的概率进行答案提取就成为了比赛的关键,本文针对预训练模型的选择和使用以及提取规则的使用进行说明。

本次题目每个训练集样本由四部分组成“样本id”,“文本句子”,“事件类型”以及“事件主体”作为标签,事件主题就是从文本句子中筛选出来的。比赛的评分指标是F1,就是一个样本你可以预测多个事件主体,和真实的事件主体比较,考虑召回率和准确率的协调。这个F1应该是以词作为对应指标的,而不是字;

2.方法探索

在不借助任何语料库和预训练模型,自己搭一个带多头注意力机制的w2v,然后靠这1.4w的数据集去训练,结果很一般,因为数据太少了,a榜只有83.4左右;然后思考自己找语料库(搜狗新闻)去训练词向量,由于机器和时间因素本人没有尝试;最后就是使用预训练模型进行迁移学习,这里选取的是谷歌提供的bert模型进行微调,用的是其官方训练的中文词向量;然后根据规则过滤一些答案,大致成绩是a榜单模89.8,b榜78.3;经过和其他模型的融合,最佳成绩为榜92.6和b榜82.8左右,最终rank17.

3.用bert模型进行迁移学习

本赛题属于nlp任务中的阅读理解,bert在其相关的领域表现出色,这里就使用迁移学习的思想对bert预训练进行微调,为了代码简介,这里使用keras来表现:

bert_model = load_trained_model_from_checkpoint(config_path, checkpoint_path, seq_len=None)
j = 0
for l in bert_model.layers:l.trainable = Truex1_in = Input(shape=(None,)) # 待识别句子输入
x2_in = Input(shape=(None,)) # 待识别句子输入
s1_in = Input(shape=(None,)) # 实体左边界(标签)
s2_in = Input(shape=(None,)) # 实体右边界(标签)x1, x2, s1, s2 = x1_in, x2_in, s1_in

CCKS2019—面向金融的事件主题识别思路分享相关推荐

  1. 深度学习示功图智能识别思路分享

    基于深度学习抽油机井示功图智能识别[示功图数据库] 需要数据集可联系Q3247964837 示功图数据库 示功图数据 摘要 有杆柱塞泵抽油机井在我国的石油生产中发挥着关键作用.当有杆抽油系统因地层及抽 ...

  2. 中国银联研究院 周雍恺:面向金融的软件定义网络安全探索

    2016年6月2日,"2016全球SDNFV技术大会"进入了第二天.作为连续举办三届的SDN/NFV技术与产业盛会,本届大会着眼于SDN /NFV的实践应用与部署,从SDN/NFV ...

  3. 某银行信用卡中心——大数据反欺诈应用案例 2017-06-23 10:54 本篇案例为数据猿推出的大型“金融大数据主题策划”活动(查看详情)第一部分的系列案例/征文;感谢 百融金服 的投递 作为整体

    某银行信用卡中心--大数据反欺诈应用案例 2017-06-23 10:54 本篇案例为数据猿推出的大型"金融大数据主题策划"活动(查看详情)第一部分的系列案例/征文:感谢 百融金服 ...

  4. 【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】1 初赛Rank12的总结与分析

    目录 相关链接 1 赛题分析 2 引言 3 方案 3.1 传统DL方案 3.2 预训练方案 4 提分技巧 5 加快训练 6 总结和反思 7 参考资料 相关链接 [2021 第五届"达观杯&q ...

  5. 2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】3 Bert和Nezha方案

    目录 相关链接 1 引言 2 NEZHA方案 2.1 预训练 2.2 微调 3 Bert 方案 3.1 预训练 3.2 微调 3 模型融合和TTA测试集数据增强 4 总结和反思 5 参考资料 相关链接 ...

  6. 事件AI识别、一路三方协同——杭绍台智慧高速如何应对异常事件?

    杭绍台高速按分期建设.分期投运的原则,分为先行段.城区段.先行段按照智慧高速总体布局安排,已经先行先通,并具备了智慧高速的基本雏形,完成基础架构搭建,"异常事件主动感知闭环处置"场 ...

  7. 将安全信息应用到以下对象时发生错误 拒绝访问_手机资讯:拒绝「京东金融」事件再次发生|如何避免iPhone 应用私自获取照片...

    如今使用IT数码设备的小伙伴们是越来越多了,那么IT数码设备当中是有很多知识的,这些知识很多小伙伴一般都是不知道的,就好比最近就有很多小伙伴们想要知道拒绝「京东金融」事件再次发生|如何避免iPhone ...

  8. Google Maps API 进级: GoogleMaps常用事件及应用思路1

    转自:http://hi.baidu.com/xfm_zhr/blog/item/8c1790517e87ea888d54302a.html 1.       GoogleMaps常用事件及应用思路 ...

  9. 【Pytorch神经网络理论篇】 35 GaitSet模型:步态识别思路+水平金字塔池化+三元损失

    代码: [Pytorch神经网络实战案例]28 GitSet模型进行步态与身份识别(CASIA-B数据集)_LiBiGor的博客-CSDN博客1 CASIA-B数据集本例使用的是预处理后的CASIA- ...

  10. 介绍几个专门面向中文的命名实体识别和关系抽取工具

    知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答.对话系统.推荐系统等.知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要.从 ...

最新文章

  1. CCBPM工作流引擎的消息机制与设计
  2. shopex PHP Notice,ShopEx PHP远程包含漏洞
  3. 实现点击按钮复制文本(Clipboard包)
  4. matlab的try函数,matlab – 是否可以在没有try块的情况下测试函数句柄?
  5. 7-2 日期问题面向对象设计(聚合一) (35 分)
  6. cdate在java中_Java Calendar.add方法代码示例
  7. 你是如何抵制百度系列产品的?
  8. MedicineCare-可行性分析
  9. PCB分析神器,一键找出Bug
  10. Visio画图,空间太小,画不下
  11. c语言求栈长度程序,数据结构C语言实现之顺序栈
  12. 步进电机基础(5.9)-步进电机的驱动与控制-三相步进电机的驱动电路
  13. 安卓磁链搜索下载播放和原理探索
  14. 解决表格的Drag a column header here to group by that column
  15. 会计期间(转摘至互动百科)
  16. scriptmanager
  17. java怎么快速补缺_Java基础查漏补缺(1)
  18. 让子盒子水平和垂直居中的五种方法
  19. RN TSX基于react-native-vector-icons和iconfont.cn 的生成自定义Icon组件的工具
  20. 计算机系统要素:硬件描述语言HDL简介

热门文章

  1. MagicTints, 高级效果图一键匹配完成!再也不用为调色犯愁了!
  2. ObjectArx 中反应器Reactor的使用
  3. 章鱼哥的暴走,HTML5也开始了
  4. 主流边缘端部署嵌入式平台
  5. 安全篇-AES/RSA加密机制
  6. 某计算机系统的内存容量配置为128,2015年9月教育部统考《计算机应用基础》模拟试卷(6)满分答案...
  7. JAVA测试报错idsException : Index 0 out of bounds for length 0:意为数组索引越界异常,索引0超出长度0的界限。怎么解决呢?
  8. 英诺重明容错服务器320T安装centos7.6图文步骤超详细版
  9. 洛谷_5685 [JSOI2013]快乐的 JYY(回文自动机)
  10. springboot毕业论文管理系统 计算机专业毕业设计源码42124