过年刷千言数据集：文本相似度数据集

1.比赛信息
2. 数据集介绍
3. 模型细节
- 3.1 数据增强：
- 3.2 模型：
- 3.3 训练：
- 3.4 模型融合：
其他：可以提高的点或者没有用尝试。
- 1.领域数据进一步预训练。
- 2.半监督训练（self-training的思想）：
- 3. simCSE的训练：
- 4.stacking模型融合：

1.比赛信息

“千言数据集：文本相似度” 是网易易智在 CCF 和百度联合举办的行业测评任务，这个榜单在2021年出提出。刚好过年有时间刷一下这个任务，由于时间有限，且已经有相当多的提交，最后在假期结束取得15/2000的成绩。

代码地址：https://github.com/xxyliuyang/qianyan_similarity
依赖： allennlp2.0.1、transfomers4.1.0、torch==1.7.1

2. 数据集介绍

具体数据来源查看官网数据介绍，这里介绍三个数据比较大的问题：千言数据集：文本相似度述

问题一：领域数据：BQ Corpus是金融领域相关的数据。
问题二：文本质量： PAWS-X的输入文本质量不高，存在很多中英混合句子，英文大部分是英文实体词汇。
问题三：label质量：观察部分数据，标签存在标注错误的情况。

3. 模型细节

3.1 数据增强：

交换句子度，将训练数据翻倍。

3.2 模型：

bert构建句子对模型，使用[CLS]的输出的向量做二分类。

3.3 训练：

使用R-drop正则方法，其训练逻辑类似于对抗训练。

3.4 模型融合：

使用robert，albet，macbert分别训练，然后将输出的概率求平均。

其他：可以提高的点或者没有用尝试。

还有很多方法没有尝试，读者可以自行尝试，进入前十还是不难。

1.领域数据进一步预训练。

条件是可以获取或者爬取相关领域的文本。

2.半监督训练（self-training的思想）：

条件是获取相关数据。

3. simCSE的训练：

尝试simCSE的训练，但是没有收益，猜测是因为simCSE提高句子embedding的方法，然而这个任务是句子对的任务，两个任务的出发点有区别。如果有更好的解释，欢迎评论。

4.stacking模型融合：

更好的融合模型可以提高效果

参考文献
[1] R-Drop
[2] simCSE

过年刷【千言数据集：文本相似度】比赛相关推荐

百度千言-中文文本相似度实战
文章目录百度千言-中文文本相似度实战任务1:报名比赛,下载比赛数据集并完成读取任务2:对句子对提取TFIDF以及统计特征,训练和预测任务3:加载中文词向量,自己训练中文词向量任务4:使用中文 ...
拆解「千言数据集：文本相似度」竞赛第一背后的故事
欢迎关注[百度NLP]公众号,及时获取更多自然语言处理领域技术干货! 文本相似度旨在识别两段文本在语义上是否相似,它在自然语言处理领域是一个重要研究方向,同时在信息检索.新闻推荐.智能客服等领域都发挥 ...
千言数据集：文本相似度——BERT完成NSP任务
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...
前沿重器[7] | 小布助手登顶百度千言短文本相似度的秘诀
[前沿重器] 栏目主要给大家分享各种大厂.顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术.具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有. 往期回顾前沿重器[2] | ...
容联云AI问鼎“千言数据集—实体链指评测“，持续打造知识语义计算能力
容联云研发并积累了面向业务知识图谱敏捷构建与应用的核心算法能力,可快速响应业务需求,并利用"知识"增强现有的语义理解技术,解决用户的知识查询等问题. 近日,容联云知识及语义计算技术 ...
梅开二度！容联云AI荣登“千言数据集-语义解析”权威测评榜首
近日,容联云AI研究院自主研发的表格问答技术在中文"千言数据集:语义解析"行业测评中击败多支劲旅,荣登榜首.此前容联云已荣获"千言数据集:实体链指"评测冠军. ...
千言数据集：文本相似度——数据读取部分
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月) 链接:https://coggle.club/blog/30days-of-ml-202201 比赛链接:htt ...
《NLP直播课打卡》第二天：千言文本相似度比赛全流程
打卡内容说明基于NLP直播课实践内容略改训练过程,简化训练的使用使用paddlenlp进行预训练模型网络开发内含数据读取与处理方法(未清洗样本数据) 内含数据分布的简要展示网络搭建与训练预测 ...
基于PaddleNLP完成千言情感分析————0.8014分方案
千言|情感分析----0.7839分方案比赛介绍: 情感分析旨在自动识别和提取文本中的倾向.立场.评价.观点等主观信息.它包含各式各样的任务,比如句子级情感分类.评价对象级情感分类.观点抽取.情绪分 ...

过年刷【千言数据集：文本相似度】比赛

过年刷千言数据集：文本相似度数据集

1.比赛信息

2. 数据集介绍

3. 模型细节

3.1 数据增强：

3.2 模型：

3.3 训练：

3.4 模型融合：

其他：可以提高的点或者没有用尝试。

1.领域数据进一步预训练。

2.半监督训练（self-training的思想）：

3. simCSE的训练：

4.stacking模型融合：

过年刷【千言数据集：文本相似度】比赛相关推荐

最新文章

热门文章

过年刷【千言数据集：文本相似度】比赛

过年刷千言数据集：文本相似度数据集

1.比赛信息

2. 数据集介绍

3. 模型细节

3.1 数据增强：

3.2 模型：

3.3 训练：

3.4 模型融合：

其他：可以提高的点 或者 没有用尝试。

1.领域数据进一步预训练。

2.半监督训练（self-training的思想）：

3. simCSE的训练：

4.stacking模型融合：

过年刷【千言数据集：文本相似度】比赛相关推荐

最新文章

热门文章

其他：可以提高的点或者没有用尝试。