本文重点在第三部分“词嵌入”及对Word2vec的介绍，前面的知识主要用于小白对词表示和一些定义、名称的理解，和对一些方法不足的思考。

一、词表示

1.1 词表示的定义

词表示是一种将自然语言中的词转换为机器可理解含义的过程

其中意思（meaning）的定义 (Webster Dictionary) • The thing one intends to convey especially by language • The logical extension of a word

1.2 词表示的目标

计算词与词的相似度 • WR(Star) ≃ WR(Sun) • WR(Motel) ≃ WR(Hotel)

推测词与词的关系 • WR(China) − WR(Beijing) ≃ WR(Japan) - WR(Tokyo) • WR(Man) ≃ WR(King) − WR(Queen) + WR(Woman) • WR(Swimming) ≃ WR(Walking) − WR(Walk) + WR(Swim)

如何表示词的意思，使得机器可以理解?

1.3 过去的一些词表示方法

1.3.1 使用相关词集合，如同义词或上位词来对一个词进行表示

例如：WordNet是一个包含同义词和上位词的词典

同义词/上位词表示的不足：

丢失语义上的细微差别：(“proficient”, “good”) 只在某些特定的上下文中为同义词

无法获得单词的新含义：Apple (水果 → IT公司) ，Amazon (森林 → IT公司)

具有一定的主观性

数据稀疏

需要人工标注或更新

1.3.2 One-hot表示

将单词视为离散的符号，用单词的ID或one-hot表示，例如：

One-hot表示的不足

维度太高。

，所有向量都互相正交，通过one-hot表示无法计算词与词的相似度

1.3.3 上下文词表示 (Distributional Representation)

核心思想：一个词的意义应通过经常出现在其周围的词进行表示

基于统计学的自然语言处理中成功的想法之一

例如：使用上下文来表示单词stars

共现统计

词嵌入

接下来进行共现统计，基于计数的分布式词表示：

基于计数的分布式词表示其实也有一些细节上的不同：

Term-Term矩阵：矩阵中的数表示一个词出现在另一个词周围的次数

Term-Document矩阵：矩阵中的数表示一个词出现在某文档中的次数

Term-Term矩阵 (共现矩阵）

矩阵中的数表示一个词出现在另一个词周围的次数

AI遮天传 NLP-词表示相关推荐
1. AI遮天传 DL-回归与分类
  本文主要介绍Logistic回归和Softmax回归一.回归与分类回忆给定数据点集合和相应的标签 ,对于一个新的数据点x,预测它的标签(目标是找到一个映射 ): 如果是一个连续的集合,称其为回 ...
2. AI遮天传 ML-广义线性模型(一)
  前文:AI遮天传 ML-回归分析入门_老师我作业忘带了的博客-CSDN博客前文回顾: 还记得很久很久以前,我们学习了简单的回归分析,这其实与我们在学校所学的求解回归方程并没无太大的区别,或许仅是维度 ...
3. AI遮天传 DL-反馈神经网络RNN
  本文会先介绍动态系统的概念,然后介绍两种简单的反馈神经网络,然后再介绍两种门控神经网络(LSTM, GRU),最后是关于反馈神经网络的应用(本次以语音识别为例). RNN: Recurrent neu ...
4. AI遮天传 DL-CNN
  上次我们介绍了多层感知机(MLP),本次将介绍深度学习领域中第二个基本的模型:卷积神经网络(CNN).CNN在MLP之上又引入了两种新的层:卷积层和池化层. 一.简介 1.1 大脑皮层中的局部检测器和 ...
5. AI遮天传 ML-KNN
  我们之前学习的方法如决策树.回归分析.贝叶斯分析都可以看作是三步走的学习方法,即: 估计问题的特征(如分布) 做出模型假设(LSE.Decision.Tree.MAP.MLE ) 找到最优的参数 ...
6. AI遮天传 ML-SVM
  支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本.非线性及高维模式式识别中表现出许多特有的优势,并 ...
7. AI遮天传 ML-集成学习
  "Two heads are better than one." "三个臭皮匠,顶一个诸葛亮" 把多个人的智慧集合到一起,可能会比一个人好,放在机器学习上,我们 ...
8. AI遮天传 DL-多层感知机
  本文介绍多层感知机,会先按照历史顺序介绍多层感知机诞生前的一些模型,后面介绍具体实现与其算法. 一.前戏 1.1 阈值逻辑单元(Threshold Logic Unit, TLU) 如上图是一个神经元 ...
9. AI遮天传 ML-无监督学习
  一.无监督学习介绍机器学习算法分类(不同角度): 贪婪 vs. 懒惰参数化 vs. 非参数化有监督 vs. 无监督 vs. 半监督 ...... 什么是无监督学习?(unsupervised l ...
最新文章
热门文章

AI遮天传 NLP-词表示