对这些研究有点兴趣颇微。

文章目录

  • Rethinking Dense Retrieval’s Few-Shot Ability
  • Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder
  • PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction
  • Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

Rethinking Dense Retrieval’s Few-Shot Ability

我们定制了一个标准的FewDR数据集和评估协议,用于少量密集的检索。该数据集是在维基百科语料库上构建的,包含41,420个样本,有60个细粒度的类别。
具体内容上,和其他的dense retrieval方法,没有感觉到有太大的不同。

Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder

传统上,大部分seq2seq任务是由编码器-解码器框架解决的,它需要一个编码器来编码源序列,一个解码器来生成目标文本。

This paper aims to address this gap by conducting a detailed comparison between the encoder-decoder architecture and the decoder-only language model framework through the analysis of a regularized encoder-decoder structure.

问题矛盾点:
1.encoder-decoder模型结构相比于decoder-ONLY结构,哪个更有优势?
2.我们揭示了语言模型中的注意力退化问题,即随着生成步骤数的增加,越来越少的注意力被集中在源序列上。


traditional ED structure named as Regularized Encoder-Decoder (RED) framework

1.为了避免注意力退化的问题,提出了单向交叉注意,单向的交叉注意同时关注源矩阵和目标矩阵;
2.连续位置编码,在target序列中的位置编码和source序列中的位置编码是连续,而不是在target中从头开始排序。


PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction

语音和视觉相似性知识对这项任务很重要。 PLOME 利用 GRU 网络根据字符的语音和笔画对此类知识进行建模。


所提出的模型将每个字符的笔画和拼音作为输入,这使得 PLOME 能够对任意字符之间的相似性进行建模。
PLOME 通过联合恢复掩码标记的真实字符和语音来学习字符和语音级别的拼写错误知识。
模型结构图

  1. we randomly mask some percentage of the input tokens and then recover them
  2. mask 15% of tokens in the corpus. In addition, we use dynamic masking strategy
  3. the final embedding of each character is the sum of character embedding, position embedding, phonic embedding and shape embedding
The probability of the character predicted for the i-th token in a given
sentence is defined as

The probability of pronunciation prediction
is defined as:


损失函数:

Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking

汉字中常见的错误类型如上文所述,一个是拼音,一个是字形。

模型结构图

The Semantic Encoder

The input tokens X = (x1, . . . , xN ) are first
projected into Ht0
through the input embedding.
Then the computation of Transformer (Vaswani
et al., 2017) encoder layers can be formulated as:

The Phonetic Encoder(拼音encoder)

 The 5 kinds of tones (take
the final “a” as an example, { a,¯ a,´ a,ˇ a, a ` }) can be
mapped into numbers {1, 2, 3, 4, 0}

The Character-level Encoder

a single-layer
uni-directional GRU (Cho et al., 2014), which encodes the pinyin of the i-th character xi as:


The Graphic Encoder

**fused module **
采用的gate机制实现的embedding的融合。

230530-论文整理-课题组2相关推荐

  1. 关系抽取论文整理,核方法、远程监督的重点都在这里

    来源 | CSDN 博客 作者 | Matt_sh,编辑 | Carol 来源 | CSDN云计算(ID:CSDNcloud) 本文是个人阅读文章的笔记整理,没有涉及到深度学习在关系抽取中的应用. 笔 ...

  2. 论文整理集合 -- 吴恩达老师深度学习课程

    吴恩达老师深度学习课程中所提到的论文整理集合!这些论文是深度学习的基本知识,阅读这些论文将更深入理解深度学习. 这些论文基本都可以免费下载到,如果无法免费下载,请留言!可以到coursera中看该视频 ...

  3. Non-Blind图像反卷积论文整理

    Non-Blind图像反卷积论文整理 1 Spatial Deconvolution Stochastic Deconvolution  2013   http://www.cs.ubc.ca/lab ...

  4. 计算机维修知识综述论文,机器学习领域各领域必读经典综述论文整理分享

    原标题:机器学习领域各领域必读经典综述论文整理分享 机器学习是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知 ...

  5. 内窥镜去反光的论文整理

    文章目录 内窥镜去反光的论文整理 Detection and correction of specular reflections for automatic surgical tool segmen ...

  6. ECCV2020超分辨率方向论文整理笔记

    ECCV2020超分辨率篇 ECCV的全称是European Conference on Computer Vision(欧洲计算机视觉国际会议) ,是计算机视觉三大顶级会议(另外两个是ICCV]和C ...

  7. 流量分类方法设计(一)——参考论文整理

    流量分类方法设计(一)--参考论文整理 因为最近在做流量分类有关的工作,所以将整个工作思路整理下来,希望对以后进一步的学习和论文写作有所帮助. 这一篇主要整理一下最近有关流量分类的论文,介绍他们的设计 ...

  8. WSDM'23 | 工业界搜推广nlp论文整理

    大家好,蘑菇先生. WSDM'23已公布录用结果,共收到投稿690篇,录用123篇,录用率为17.8%,完整录用论文: https://www.wsdm-conference.org/2023/pro ...

  9. ICCV2019超分辨率方向论文整理笔记

    ICCV2019超分辨率篇 IEEE International Conference on Computer Vision,即国际计算机视觉大会,与计算机视觉模式识别会议(CVPR))和欧洲计算机视 ...

  10. NAACL2021 信息抽取与少/零样本相关论文整理

    NAACL2021放榜啦!!具体情况这里! 小编对其中 事件抽取.关系抽取.NER和Few-Shot / Zero-Shot相关的论文整理如下,欢迎补充整理呦: 事件抽取 WEC: Deriving ...

最新文章

  1. Servlet的学习(四)
  2. 类的加载过程二:Linking
  3. 缺省参数-回顾列表的排序方法明确缺省参数的概念及作用
  4. asynchttpclient 超时_dnf这才是混子的毕业套装,却发现超时空漩涡不买账!
  5. Redis的启动、使用和停止
  6. (王道408考研数据结构)第四章串-第二节:串的模式匹配算法(朴素和KMP)
  7. Samba在Ubuntu12.04安装
  8. C# 随机数调用合集 Random
  9. java 使用vue_简单使用vue-cli
  10. 学习笔记之CursorAdapter
  11. win10恢复经典开始菜单_打造个性化开始菜单,Win10 开始菜单任务栏美化增强软件...
  12. amd linux raid,请问AMD RAID驱动怎么用
  13. 分布式技术(2)大型网站架构利器-CDN技术
  14. java求100以内的素数
  15. Android 保持ImageVIew大小不变,让图片按比例拉伸
  16. 2017第二届上海DAC体验
  17. 目标检测算法——YOLOv5/YOLOv7改进之结合特征提取网络RFBNet(涨点明显)
  18. 揭秘:QQ盗号背后的产业链,惊人的暴利!
  19. java如何计算吞吐量_如何计算进程调度算法的吞吐量(How to calculate throughput of a process scheduling algorithm)...
  20. SQL Server 2016软件安装教程

热门文章

  1. 天文方面的python库
  2. 想兼职php讲师怎么找,如何成为一名兼职讲师?
  3. Java使用SpringBoot实现简单的文件上传(上传文件到本地)
  4. 元宇宙的宏观与微观趋势
  5. Java网络蜘蛛/网络爬虫 Spiderman
  6. 矩阵中零空间,行空间的意义
  7. dubbo负载均衡概念和使用
  8. Linux如何卸载slurm,RedHat安装SLURM
  9. 《序列》游戏攻略【43~48】
  10. python 在线培训费用-上海python课程在线培训费用