这篇文章我觉得研究的挺有意思的。
找到神经网络中最有帮助的神经元的一个过程。这个过程的价值是减少PLM参数的前提下，还能提高模型的效果。

在本文中，我们发现在对特定任务进行快速调整后，预训练的 Transformers1 中某些神经元的激活可以高度预测任务标签。我们将这些神经元称为技能神经元，并通过发现以下内容来确认它们编码特定于任务的技能：(1) 技能神经元对于处理任务至关重要。当相应的技能神经元受到扰动时，预训练的变形金刚在任务上的表现会显着下降。 (2) 技能神经元是任务特定的。相似的任务往往具有相似的技能神经元分布。

We dub these special neurons skill neurons and develop a simple and effective method to find them for classification tasks via prompt tuning.。

具有高生产力的的神经元被预测为skill neurons.

论文中发现的：

（1）技能神经元普遍稳定地出现。对于所有 7 个调查任务和 5 个随机试验，我们始终可以找到具有接近提示调整的高预测能力的技能神经元。 (2) 技能神经元对于处理任务至关重要。当我们通过在它们的激活中添加随机噪声来扰乱技能神经元时，相应任务的性能下降比随机神经元受到扰动时要显着得多。 (3) 技能神经元是任务特定的。相似的任务表现出相似的技能神经元预测排序，并且相同类型任务的技能神经元对于处理任务比不同类型任务的技能神经元更重要。 (4) 技能神经元不是来自浅层词选择性。技能神经元通常不会选择性地激活与任务相关的关键词，并且它们的预测能力不会受到提示调整中使用的标签词的显着影响。

neuron的作用怎么判断？（没看太明白。）

在二分类任务中做的验证和测试。

Tsinghua:Finding Skill Neurons in Pre-trained Transformer-based Language Models相关推荐

【深度学习】网络架构设计：CNN based和Transformer based
从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...
【Transformer】CrossFormer：A versatile vision transformer based on cross-scale attention
文章目录一.背景二.动机三.方法 3.1 Cross-scale Embedding Layer(CEL) 3.2 Cross-former Block 3.2.1 Long Short Dis ...
论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）
文章目录 abstrac 1.Introduction 2 Transformer Language Model 2.1 Transformer-Decoder 2.2 Unsupervised Pr ...
论文笔记--Evaluating Large Language Models Trained on Code
论文笔记--Evaluating Large Language Models Trained on Code 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 评估 3.2 模型训练--Cod ...
Object Detection with Discriminatively Trained Part Based Models（使用判别训练的部件模型进行目标检测）
目录(?)[-] 摘要关键词引言相关研究工作模型 1 可变形部件模型 2 匹配 3 混合模型隐藏变量SVM 1 半凸规划 2 最优化 3 随机梯度下降 4 难例挖掘SVM版 5 难例挖掘LS ...
图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)
这是我翻译这位大佬的第二篇文章了,翻译授权见最后. 其他工作: 图解transformer | The Illustrated Transformer 图解BERT.ELMo(NLP中的迁移学习)| ...
【AI4Code】CodeX：《Evaluating Large Language Models Trained on Code》（OpenAI）
代码生成--CodeX (OpenAI) 最近非常火的OpenAI的Copilot背后的模型.文章35页,58位作者,6位共同一作. 顺理成章的,把模型做的再大一点,训练数据集做的再大一些,计算资源再 ...
开山之作：Maass、1997：Networks of Spiking Neurons: The Third Generation of Neural Network Models
先来一个机翻译文句子摘要: 这篇文章不假定关于脉冲神经元的先验知识,它包含了大量的参考文献,这些文献涉及到脉冲神经元网络中的计算和神经生物学的相关结果. 第一代是基于McCulloch-Pitts神 ...
2022 ACL 最全事件抽取和关系抽取相关论文
2022 ACL 最全事件抽取和关系抽取相关论文事件触发词抽取 Saliency as Evidence: Event Detection with Trigger Saliency Attribu ...

Tsinghua:Finding Skill Neurons in Pre-trained Transformer-based Language Models

论文中发现的：

neuron的作用怎么判断？（没看太明白。）

Tsinghua:Finding Skill Neurons in Pre-trained Transformer-based Language Models相关推荐

最新文章

热门文章