Tsinghua:Finding Skill Neurons in Pre-trained Transformer-based Language Models
这篇文章我觉得研究的挺有意思的。
找到神经网络中最有帮助的神经元的一个过程。这个过程的价值是减少PLM参数的前提下,还能提高模型的效果。
在本文中,我们发现在对特定任务进行快速调整后,预训练的 Transformers1 中某些神经元的激活可以高度预测任务标签。我们将这些神经元称为技能神经元,并通过发现以下内容来确认它们编码特定于任务的技能:(1) 技能神经元对于处理任务至关重要。当相应的技能神经元受到扰动时,预训练的变形金刚在任务上的表现会显着下降。 (2) 技能神经元是任务特定的。相似的任务往往具有相似的技能神经元分布。
We dub these special neurons skill neurons and develop a simple and effective method to find them for classification tasks via prompt tuning.。
具有高生产力的的神经元被预测为skill neurons.
论文中发现的:
(1)技能神经元普遍稳定地出现。对于所有 7 个调查任务和 5 个随机试验,我们始终可以找到具有接近提示调整的高预测能力的技能神经元。 (2) 技能神经元对于处理任务至关重要。当我们通过在它们的激活中添加随机噪声来扰乱技能神经元时,相应任务的性能下降比随机神经元受到扰动时要显着得多。 (3) 技能神经元是任务特定的。相似的任务表现出相似的技能神经元预测排序,并且相同类型任务的技能神经元对于处理任务比不同类型任务的技能神经元更重要。 (4) 技能神经元不是来自浅层词选择性。技能神经元通常不会选择性地激活与任务相关的关键词,并且它们的预测能力不会受到提示调整中使用的标签词的显着影响。
neuron的作用怎么判断?(没看太明白。)
在二分类任务中做的验证和测试。
Tsinghua:Finding Skill Neurons in Pre-trained Transformer-based Language Models相关推荐
- 【深度学习】网络架构设计:CNN based和Transformer based
从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...
- 【Transformer】CrossFormer:A versatile vision transformer based on cross-scale attention
文章目录 一.背景 二.动机 三.方法 3.1 Cross-scale Embedding Layer(CEL) 3.2 Cross-former Block 3.2.1 Long Short Dis ...
- 论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE)
文章目录 abstrac 1.Introduction 2 Transformer Language Model 2.1 Transformer-Decoder 2.2 Unsupervised Pr ...
- 论文笔记--Evaluating Large Language Models Trained on Code
论文笔记--Evaluating Large Language Models Trained on Code 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 评估 3.2 模型训练--Cod ...
- Object Detection with Discriminatively Trained Part Based Models(使用判别训练的部件模型进行目标检测 )
目录(?)[-] 摘要 关键词 引言 相关研究工作 模型 1 可变形部件模型 2 匹配 3 混合模型 隐藏变量SVM 1 半凸规划 2 最优化 3 随机梯度下降 4 难例挖掘SVM版 5 难例挖掘LS ...
- 图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)
这是我翻译这位大佬的第二篇文章了,翻译授权见最后. 其他工作: 图解transformer | The Illustrated Transformer 图解BERT.ELMo(NLP中的迁移学习)| ...
- 【AI4Code】CodeX:《Evaluating Large Language Models Trained on Code》(OpenAI)
代码生成--CodeX (OpenAI) 最近非常火的OpenAI的Copilot背后的模型.文章35页,58位作者,6位共同一作. 顺理成章的,把模型做的再大一点,训练数据集做的再大一些,计算资源再 ...
- 开山之作:Maass、1997:Networks of Spiking Neurons: The Third Generation of Neural Network Models
先来一个机翻译文 句子摘要: 这篇文章不假定关于脉冲神经元的先验知识,它包含了大量的参考文献,这些文献涉及到脉冲神经元网络中的计算和神经生物学的相关结果. 第一代是基于McCulloch-Pitts神 ...
- 2022 ACL 最全事件抽取和关系抽取相关论文
2022 ACL 最全事件抽取和关系抽取相关论文 事件触发词抽取 Saliency as Evidence: Event Detection with Trigger Saliency Attribu ...
最新文章
- mSystems:南土所梁玉婷组-土壤pH过滤稻田土壤耐铝微生物的关联模式
- 计算机网络总结:第三章 运输层
- java ML回归预测_ML之回归预测:利用九大类机器学习算法对无人驾驶汽车系统参数(2018年的data,18+2)进行回归预测值VS真实值...
- mysql数据库的优缺点
- Open5GS:开源5G
- 给萌新的Flexbox简易入门教程
- 赛尔原创 | ACL20 用于多领域端到端任务型对话系统的动态融合网络
- 使用AjaxPro实现ajax效果
- AS常用指令,常用功能,以及常见问题
- 如何释放计算机内存吗,Win7如何释放内存?三招帮你将电脑中的垃圾全部清理掉!...
- vue.js中修饰符.stop的用法。
- /专访/对话堵俊平:最好的开源生态模型,是亚马逊的原始森林
- mysql filtered_为什么Mysql explain extended中的filtered列值总是100%
- web前端一张页面多少钱?
- 黑客利用0day,从General Bytes比特币ATM盗走150万美元
- C++计算矩阵对角线和的程序
- 【POJ No. 1986】 距离查询 Distance Queries
- 使用Spark分析拉勾网招聘信息(三): BMR 入门
- 09 模型的增删查改《ThinkPHP6 入门到电商实战》
- 脑壳疼?别再写满屏的 if-else 了,看我怎么消灭它!