总结一下word embedding

在NLP中，词向量是最基础的一部分，所谓词向量就是词在空间的一个映射向量表示。实现词向量的方式有word2vec， BERT，K-BERT等，还有一部分是用CNN实现.

word2vec
word2vec有两种不同的词向量生成模式，一种是CBOW（character box of word）另一种是Skip-gram模型，CBOW是利用前后词判断当前词，Skip是利用当前词判断前后词。
CBOW可以理解为，输入的 $w$ ，求其前后相关的最大概率，即 $P (w) = P (C o n t e x t (w) ∣ w)$ ;其模型结构如图1所示（这个图以后再补，毕竟是大论文中的）。Skip可以理解为，输入 $w$ 前后的词，预测能退出 $w$ 的最大概率，即 $P (w) = P (w ∣ C o n t e x t (w))$ 。
BERT、ALBERT和XLNERT等BERT变形
BERT的词向量编码由三部分组成，分别是token embedding、segment embedding和position embedding组成，其中token代表当前词的向量，segment用来对句子进行划分，分为[A]or[B]， position为位置信息，有了这个三个向量，将其进行相加，便得到了BERT的embedding。
在BERT的embedding中，word-level 和sentence-level使用了相同的embedding space，因此表现出来的性质在空间上是一致的，这也限制了bert-embedding中的性能；
K-BERT
K-BERT是在BERT的基础上融入了知识图谱，由此把句子原来的结构填充了起来，导致出现了很多新的内容，但不可避免的这些新的内容会与原来句子中的内容有所冲突，尤其是在position上面。因此在K-BERT中使用了soft-position作为位置嵌入，将原来的position进行保留，将新加入的内容使用soft-postion进行保存，由此解决了相同词不同空间位置的问题，同时也解决了BERT空间编码不一致的问题。在计算self-attenrion的时候，使用一 $M$ $s e e i n g m a r t i x$ 将soft-position和position进行了区分，避免了无关词得到的注意力分数相关。
CNN
CNN在计算机视觉方面用的比较多，在文本向量中，先要构建一个 $M a t r i x$ ，然后用一个卷积核 $k e r n e l$ 在当中移动，获取到 $f e a t u r e m a p$ ，后面再使用激活函数做非线性处理，最后使用 $M a x p o o l i n g$ 层进行最大特征获取。

总结一下word embedding相关推荐

word2vec代码_TensorFlow2.0 代码实战专栏（四）：Word2Vec (Word Embedding)
作者 | Aymeric Damien编辑 | 奇予纪出品 | 磐创AI团队 Word2Vec (Word Embedding) 使用TensorFlow 2.0实现Word2Vec算法计算单词的向 ...
Word Embedding News｜词嵌入新鲜事：六月刊：GPT-3来了
这里是 WEN(Word Embedding News)|词嵌入新鲜事. 作为起步,它将基于 Sebastian Ruder NLP News 的每月筛选,聚焦词嵌入领域.对涉及内容在本人阅读后的基础 ...
Word Embedding List｜ACL 2020 词嵌入长文汇总及分类
ACL 2020 于 5 月 17 日放榜啦,在此祝贺.羡慕每一位论文被接收的朋友.以下汇总并尝试按主题分类了 37 篇与 word embedding 有关的长文,让我们一起看看今年词嵌入的研究又有 ...
Word Embedding News | 词嵌入新鲜事：COVID-19特刊
这里是 WEN(Word Embedding News)|词嵌入新鲜事. 作为起步,它将基于 Sebastian Ruder NLP News 的每月筛选,聚焦词嵌入领域.对涉及内容在个人阅读后的基础 ...
06_1.Pytorch中如何表示字符串、word embedding、One - hot、Embedding（Word2vec、BERT、Glove）【学习总结】
1.6.1.如何表示字符串 1.6.1.1.word embedding 1.6.1.1.1.文本表示(Representation) 1.6.1.1.2.独热编码 | one-hot represe ...
文本的表示-词嵌入（word embedding）
文本的理解文本是常用的序列化数据类型之一.文本数据可以看作是一个字符序列或词的序列.对大多数问题,我们都将文本看作词序列. 深度学习序列模型(如RNN及其变体)能够较好的对序列化数据建模. 深度学习 ...
【李宏毅机器学习】Unsupervised Learning - Word Embedding 无监督学习 - 词嵌入（p22）学习笔记
文章目录 Unsupervised Learning Word Embedding 用一个vector来表示一个word的几种方法 1-of-N Encoding Word Class Word Em ...
《How to Generate a Good Word Embedding?》导读（转）
http://licstar.net/archives/620 <How to Generate a Good Word Embedding?>导读 Posted on 2015 年 7 ...
【李宏毅2020 ML/DL】P22 Unsupervised Learning - Word Embedding
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
关于词嵌入（Word Embedding）的一些总结
看了课程半天没搞懂词嵌入是啥,梳理一下相关知识.参考: https://www.jianshu.com/p/2fbd0dde8804 https://blog.csdn.net/m0_37565948 ...

总结一下word embedding

总结一下word embedding相关推荐

最新文章

热门文章