过年刷千言数据集:文本相似度数据集

  • 1.比赛信息
  • 2. 数据集介绍
  • 3. 模型细节
    • 3.1 数据增强:
    • 3.2 模型:
    • 3.3 训练:
    • 3.4 模型融合:
  • 其他:可以提高的点 或者 没有用尝试。
    • 1.领域数据进一步预训练。
    • 2.半监督训练(self-training的思想):
    • 3. simCSE的训练:
    • 4.stacking模型融合:

1.比赛信息

“千言数据集:文本相似度” 是网易易智在 CCF 和百度联合举办的行业测评任务,这个榜单在2021年出提出。刚好过年有时间刷一下这个任务,由于时间有限,且已经有相当多的提交,最后在假期结束取得15/2000的成绩。

代码地址:https://github.com/xxyliuyang/qianyan_similarity
依赖: allennlp2.0.1、transfomers4.1.0、torch==1.7.1

2. 数据集介绍

具体数据来源查看官网数据介绍,这里介绍三个数据比较大的问题:千言数据集:文本相似度述

  • 问题一:领域数据:BQ Corpus是金融领域相关的数据。
  • 问题二:文本质量: PAWS-X的输入文本质量不高,存在很多中英混合句子,英文大部分是英文实体词汇。
  • 问题三:label质量:观察部分数据,标签存在标注错误的情况。

3. 模型细节

3.1 数据增强:

交换句子度,将训练数据翻倍。

3.2 模型:

bert构建句子对模型,使用[CLS]的输出的向量做二分类。

3.3 训练:

使用R-drop正则方法,其训练逻辑类似于对抗训练。

3.4 模型融合:

使用robert,albet,macbert分别训练,然后将输出的概率求平均。

其他:可以提高的点 或者 没有用尝试。

还有很多方法没有尝试,读者可以自行尝试,进入前十还是不难。

1.领域数据进一步预训练。

条件是可以获取或者爬取相关领域的文本。

2.半监督训练(self-training的思想):

条件是获取相关数据。

3. simCSE的训练:

尝试simCSE的训练,但是没有收益,猜测是因为simCSE提高句子embedding的方法,然而这个任务是句子对的任务,两个任务的出发点有区别。如果有更好的解释,欢迎评论。

4.stacking模型融合:

更好的融合模型可以提高效果

参考文献
[1] R-Drop
[2] simCSE

过年刷【千言数据集:文本相似度】比赛相关推荐

  1. 百度千言-中文文本相似度实战

    文章目录 百度千言-中文文本相似度实战 任务1:报名比赛,下载比赛数据集并完成读取 任务2:对句子对提取TFIDF以及统计特征,训练和预测 任务3:加载中文词向量,自己训练中文词向量 任务4:使用中文 ...

  2. 拆解「千言数据集:文本相似度」竞赛第一背后的故事

    欢迎关注[百度NLP]公众号,及时获取更多自然语言处理领域技术干货! 文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索.新闻推荐.智能客服等领域都发挥 ...

  3. 千言数据集:文本相似度——BERT完成NSP任务

    以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...

  4. 前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀

    [前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾 前沿重器[2] | ...

  5. 容联云AI问鼎“千言数据集—实体链指评测“,持续打造知识语义计算能力

    容联云研发并积累了面向业务知识图谱敏捷构建与应用的核心算法能力,可快速响应业务需求,并利用"知识"增强现有的语义理解技术,解决用户的知识查询等问题. 近日,容联云知识及语义计算技术 ...

  6. 梅开二度!容联云AI荣登“千言数据集-语义解析”权威测评榜首

    近日,容联云AI研究院自主研发的表格问答技术在中文"千言数据集:语义解析"行业测评中击败多支劲旅,荣登榜首.此前容联云已荣获"千言数据集:实体链指"评测冠军. ...

  7. 千言数据集:文本相似度——数据读取部分

    以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...

  8. 《NLP直播课打卡》第二天:千言文本相似度比赛全流程

    打卡内容说明 基于NLP直播课实践内容略改训练过程,简化训练的使用 使用paddlenlp进行预训练模型网络开发 内含数据读取与处理方法(未清洗样本数据) 内含数据分布的简要展示 网络搭建与训练 预测 ...

  9. 基于PaddleNLP完成 千言情感分析————0.8014分方案

    千言|情感分析----0.7839分方案 比赛介绍: 情感分析旨在自动识别和提取文本中的倾向.立场.评价.观点等主观信息.它包含各式各样的任务,比如句子级情感分类.评价对象级情感分类.观点抽取.情绪分 ...

最新文章

  1. 算法---删除排序链表中的重复元素 II
  2. java读取properties文件,深度集成!
  3. 11.10/11.11/11.12 安装PHP5 11.13 安装PHP7
  4. Django的APP,视图,url和模板
  5. 简要分析电话光端机的常见问题
  6. php怎么表示合数,什么是合数 合数的定义
  7. 基础的c语言题目,几个c语言的基础题目
  8. linux常见的危险命令,Linux上最危险的8个命令
  9. 信息系统项目管理师学习笔记
  10. qunee for html5,Qunee for HTML5(一)
  11. Mirth Connect 快速安装
  12. 51采集温度电压电流+LCD1602显示
  13. 阿里巴巴集团升级中台战略! 任命张建锋(行癫)为首席技术官(CTO)
  14. 电容实际等效模型(容抗、感抗、品质因数Q)
  15. 图书云小程序体验版1.0.1发布
  16. python空间点赞_用Python登录好友QQ空间点赞的示例代码
  17. go学习笔记之bufio的使用
  18. Matlab中使用psychtoolbox编写刺激界面
  19. SAP SD - 交货POD收货确认
  20. LeetCode 第201次周赛 1546. Maximum Number of Non-Overlapping Subarrays With Sum Equals Target

热门文章

  1. 集中式版本控制与分布式版本控制——Git 学习笔记01
  2. Lazada双11大促玩法规则解读,2022备战清单来袭!
  3. windows附件有计算机嘛,windows附件里的写字板和记事本有什么 – 手机爱问
  4. 电子产品出口日本站PSE认证和METI备案需要哪些资料?
  5. 网络边缘是什么意思?
  6. selenium 爬虫
  7. LVS负载均衡(LVS简介、三种工作模式、持久化连接)
  8. 题解 | #成绩排序# 用例居然有重名的,至少应该说一声吧
  9. python集合的元素可以是_python集合入门须知
  10. 图像处理——几种简单的旋转变换的超详细推导过程(点在同一坐标系的变换)(一)