AI遮天传 NLP-词表示
本文重点在第三部分“词嵌入”及对Word2vec的介绍,前面的知识主要用于小白对词表示和一些定义、名称的理解,和对一些方法不足的思考。
一、词表示
1.1 词表示的定义
词表示是一种将自然语言中的词转换为机器可理解含义的过程
其中意思(meaning)的定义 (Webster Dictionary) • The thing one intends to convey especially by language • The logical extension of a word
1.2 词表示的目标
计算词与词的相似度 • WR(Star) ≃ WR(Sun) • WR(Motel) ≃ WR(Hotel)
推测词与词的关系 • WR(China) − WR(Beijing) ≃ WR(Japan) - WR(Tokyo) • WR(Man) ≃ WR(King) − WR(Queen) + WR(Woman) • WR(Swimming) ≃ WR(Walking) − WR(Walk) + WR(Swim)
如何表示词的意思,使得机器可以理解?
1.3 过去的一些词表示方法
1.3.1 使用相关词集合,如同义词或上位词来对一个词进行表示
例如:WordNet是一个包含同义词和上位词的词典
![](/assets/blank.gif)
同义词/上位词表示的不足:
丢失语义上的细微差别:(“proficient”, “good”) 只在某些特定的上下文中为同义词
无法获得单词的新含义 :Apple (水果 → IT公司) ,Amazon (森林 → IT公司)
具有一定的主观性
数据稀疏
需要人工标注或更新
1.3.2 One-hot表示
将单词视为离散的符号,用单词的ID或one-hot表示,例如:
![](/assets/blank.gif)
One-hot表示的不足
维度太高。
,所有向量都互相正交,通过one-hot表示无法计算词与词的相似度
1.3.3 上下文词表示 (Distributional Representation)
核心思想:一个词的意义应通过经常出现在其周围的词进行表示
基于统计学的自然语言处理中成功的想法之一
例如:使用上下文来表示单词stars
共现统计
词嵌入
![](/assets/blank.gif)
接下来进行共现统计,基于计数的分布式词表示:
![](/assets/blank.gif)
基于计数的分布式词表示其实也有一些细节上的不同:
Term-Term矩阵:矩阵中的数表示一个词出现在另一个词周围的次数
Term-Document矩阵:矩阵中的数表示一个词出现在某文档中的次数
Term-Term矩阵 (共现矩阵)
矩阵中的数表示一个词出现在另一个词周围的次数
![](/assets/blank.gif)
AI遮天传 NLP-词表示相关推荐
- AI遮天传 DL-回归与分类
本文主要介绍Logistic回归和Softmax回归 一.回归与分类回忆 给定数据点集合 和相应的标签 ,对于一个新的数据点x,预测它的标签(目标是找到一个映射 ): 如果是一个连续的集合,称其为回 ...
- AI遮天传 ML-广义线性模型(一)
前文:AI遮天传 ML-回归分析入门_老师我作业忘带了的博客-CSDN博客 前文回顾: 还记得很久很久以前,我们学习了简单的回归分析,这其实与我们在学校所学的求解回归方程并没无太大的区别,或许仅是维度 ...
- AI遮天传 DL-反馈神经网络RNN
本文会先介绍动态系统的概念,然后介绍两种简单的反馈神经网络,然后再介绍两种门控神经网络(LSTM, GRU),最后是关于反馈神经网络的应用(本次以语音识别为例). RNN: Recurrent neu ...
- AI遮天传 DL-CNN
上次我们介绍了多层感知机(MLP),本次将介绍深度学习领域中第二个基本的模型:卷积神经网络(CNN).CNN在MLP之上又引入了两种新的层:卷积层和池化层. 一.简介 1.1 大脑皮层中的局部检测器和 ...
- AI遮天传 ML-KNN
我们之前学习的方法如决策树.回归分析.贝叶斯分析都可以看作是 三步走 的学习方法,即: 估计问题的特征(如分布) 做出模型假设(LSE.Decision.Tree.MAP.MLE ) 找到最优的参数 ...
- AI遮天传 ML-SVM
支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本.非线性及高维模式式识别中表现出许多特有的优势,并 ...
- AI遮天传 ML-集成学习
"Two heads are better than one." "三个臭皮匠,顶一个诸葛亮" 把多个人的智慧集合到一起,可能会比一个人好,放在机器学习上,我们 ...
- AI遮天传 DL-多层感知机
本文介绍多层感知机,会先按照历史顺序介绍多层感知机诞生前的一些模型,后面介绍具体实现与其算法. 一.前戏 1.1 阈值逻辑单元(Threshold Logic Unit, TLU) 如上图是一个神经元 ...
- AI遮天传 ML-无监督学习
一.无监督学习介绍 机器学习算法分类(不同角度): 贪婪 vs. 懒惰 参数化 vs. 非参数化 有监督 vs. 无监督 vs. 半监督 ...... 什么是无监督学习?(unsupervised l ...
最新文章
- 学习笔记(二十)—— 网络编程
- mysql-Federated存储方式,远程表,相当于sql server的linked server
- SAP Analytics Cloud嵌入到SAP Cloud for Customer的效果图
- 三分钟掌握PHP操作数据库
- imagettftext php7,mac php7 imagettftext
- 数据库:存储过程_数据科学过程:摘要
- 周六直播丨细致入微 – OceanBase云平台安装部署实战
- 深入理解 Java 之 GC 到底如何工作
- Visual Studio 2008 每日提示(一)
- win7系统 winload.efi 文件损坏 报 0xc0000428 错误 不重装系统解决方法
- SpeechSynthesisUtterance 语音合成使用 文字语音播报
- 更好用的冒泡排序、双向冒泡排序,拓展荷兰国旗问题
- 硕士论文理论部分怎么降重
- PID 控制器代码实现
- JS有一个棋盘,有64个方格,在第一个方格里面放1粒芝麻重量是0.00001kg,第二个里面放2粒,第三个里面放4,棋盘上放的所有芝麻的重量(两种)
- 游戏中的事件管理--观察者模式的解读
- 区块链随想录——BitCoin的未来会如何?
- 稀疏索引、密集索引、聚簇索引、非聚簇索引
- 基于单片机温度和可燃气体浓度采集设计
- Html点击按钮自动刷新页面问题
热门文章
- centos7安装frpc
- 外国程序员也愁:快四十岁了,以后该怎么办?
- JZOJ 初中 2184:羊羊列队
- 将网卡设为混杂模式_网卡混杂模式实现方法
- 云计算机房概念股,云计算数据中心概念股龙头有哪些?2020云计算数据中心概念股一览(2)...
- python处理HTML转义字符
- 【算法】棋盘覆盖详解,基础教程~
- 数据结构(7) 树[一](基本知识与存储方式)
- matlab视觉呈现任务,视觉笔记 | 国内外优秀作品解读赏析(1)
- PAT-天梯赛习题集-L3-014-周游世界
- AI遮天传 DL-回归与分类