自然语言处理中的伪数据 by哈工大教授车万翔
(报告回放https://event.baai.ac.cn/activities/350)
“知识”(广义)的来源:广义的“知识”包括狭义的知识、算法以及数据。
要实现自然语言处理能力的提升,必须有三个广义知识的支撑,即必须有新知识、新算法或新数据的加入。
“伪数据”(Pseudo Data)
伪数据是一种弱标注的训练数据。伪数据虽然有标签,但标签的构造不曾面向所研究的任务进行人工标注,且这种标签不精确,而是样本的近似答案(伪)。获取伪数据主要有三种方法:移植、采集和制造。
1. 移植伪数据
可以分为跨语言、跨领域和跨任务三种类型。
2. 采集伪数据
数据“天然”存在目标任务的标注结果时,可以应用伪数据的采集方法。此时样本就是真实的样本,但获得的标签与真实标签近似。采集可以用来处理如命名实体、词义向量、信息抽取、情感分析等任务。
3. 制造伪数据(数据增广)
即对样本进行编辑操作形成伪数据,编辑的方式主要包括增加、删除、修改。在这种情况下,样本近似于真实样本,但标签与真实标签一致。
数据增广(Data Augmentation,DA)
通过修改已有数据或从已有数据合成新数据,用于模型训练。数据增广发端于图像处理,在图像处理中,可以对原始图像进行翻转、旋转、平移、缩放等操作,而图像标签的类别不变。
然而上述操作无法直接应用于自然语言处理。所以,需要针对其进行深入研究。我们将自然语言处理常用的数据增广方法分为三种:复述、加噪和采样。
1. 基于复述(Paraphrasing)的增广方法
此时增广数据保持原有语义,常用的方法包括1)基于同义词词典;2)基于词嵌入;3)基于语言模型;4)基于规则;5)基于回译;6)基于生成等。
2. 基于加噪(Noising)的增广方法
即加入离散或连续噪声的增广方法。下图总结了各种加噪的方法:
3. 基于采样(Sampling)的增广方法
三种数据增广方法对比较:
增广数据的实际应用策略有很多,例如对多种增广方法进行叠加,对增广数据质量进行控制(过滤、加权等),高质量增广数据直接与原训练数据混合,较低质量增广数据用作预训练数据等等。
自然语言处理中的伪数据 by哈工大教授车万翔相关推荐
- 哈工大教授车万翔:自然语言处理中的伪数据
导语:自然语言处理被誉为"人工智能皇冠上的明珠".对语言的理解需要广义的"知识",即狭义知识,算法和数据的约束.目前的预训练+微调的范式充分利用了数据类&quo ...
- 哈工大车万翔:ChatGPT时代,NLPer 的危与机
note ChatGPT的诞生,源于研究者「暴力美学」的手段. 如果大胆预测,ChatGPT能火几年,我猜可能是2到3年的时间,到2025年大概又要更新换代了. 工业界相较于学术界拥有巨大优势.这种「 ...
- 哈工大刘挺:自然语言处理中的可解释性问题!
"知其然,亦知其所以然"是现代计算机科学家针对神经网络可解释性问题追逐努力的方向和梦想.针对自然语言处理中的可解释性问题,哈尔滨工业大学刘挺教授在2022北京智源大会报告中做了详尽 ...
- 哈工大刘挺:自然语言处理中的可解释性问题
"知其然,亦知其所以然"是现代计算机科学家针对神经网络可解释性问题追逐努力的方向和梦想.针对自然语言处理中的可解释性问题,哈尔滨工业大学刘挺教授在近期的报告中做了详尽的解读.首先介 ...
- 复旦大学黄萱菁教授:自然语言处理中的表示学习
AI TIME欢迎每一位AI爱好者的加入! 比尔·盖茨曾说:"语言理解是人工智能皇冠上的明珠."在语音交互的AI时代,自然语言处理(NLP)发挥着不可替代的作用.深度学习的出现与发 ...
- AI:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授《自然语言处理中的表示学习》
AI:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授<自然语言处理中的表示学习> 导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅,此文章为 ...
- AI之NLP:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授《自然语言处理中的表示学习》
AI之NLP:2020年6月21日北京智源大会演讲分享之15:15-15:40黄萱菁教授<自然语言处理中的表示学习> 导读:首先感谢北京智源大会进行主题演讲的各领域顶级教授,博主受益匪浅, ...
- 复旦大学黄萱菁:自然语言处理中的表示学习
不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...
- 黄萱菁:自然语言处理中的可理解分析
与深度学习所面临的困难相似,目前,大规模应用的神经网络模型同样让自然语言处理领域的研究结果难以解释.模型的性能和可解释性仿佛是天生的敌人,统计结果表明,其性能愈佳,结构就越发复杂,越发难以理解. 在诸 ...
- 自然语言处理中的预训练模型 —— 邱锡鹏老师的演讲记录
目录 1.自然语言表示学习 1.1 什么是自然语言处理(NLP) 1.2 NLP的基础:语言表示 1.3 自然语言处理任务 1.3.1 序列到类别 1.3.2 同步的序列到序列 1.3.3 异步的序列 ...
最新文章
- 线程的挂起是错误的概念实际是线程的阻塞,挂起只针对进程,将进程挂起会将进程从内存空间交换到磁盘空间的过程
- [HDOJ3652]B-Number(数位dp)
- linux挂载windows共享的文件夹
- asp.net开源工作流CCFlow的下载与安装
- std::future ---C++17 多线程
- 刚出炉!AI指数报告:AI人才需求暴涨35倍,薪酬问鼎No.1
- Weblogic - Failed to bind remote object 错误解决方法
- EMNLP2021 “Transformer+预训练”再下一城,港科大开源高效的多模态摘要总结网络...
- office插件开发_Office神插件,打开新世界的大门
- Eclipse调试远程服务器
- 简单的学生管理系统详解(附源码)
- Ubuntu切换阿里源
- A. The Miracle and the Sleeper
- prisma中where对象转换RedisJson查询字符串
- java h5服务器推送事件_初识H5开启多线程与服务器推送事件
- 微服务.链路追踪.OpenTracing
- Android中高级进阶开发面试题冲刺合集(七)
- 【性能测试】Loadrunner12.55(二)-飞机订票系统-脚本录制
- 西电微电子考研初试经验贴
- CTFshow_萌新(密码)