自然语言处理2（文本的表示）

在NLP任务中我们要把文字表示成计算机能够运算的数字或向量。主要分为两类：一类是离散表示，另一类是分布式表示。

离散表示有三种方法：

① One-hot编码

在一个语料库中，给每个字、词编码一个索引，根据索引进行one-hot表示。

假定给定词典：[我们，去，爬山，今天，你们，昨天，跑步]

每个单词的表示为：

我们：[1,0,0,0,0,0,0]

爬山：[0,0,1,0,0,0,0]

注意：把每个词表示为一个长向量，长度是词典长度，不同词的向量表示互相正交（正交是两向量的内积等于0），无法表达单词与单词之间的相似程度。词向量只能反映某个词是否在句子中出现过，无法衡量不同词的重要程度。

② Boolean Representation

一段文本只考虑用一个装着这些词的袋子来表示，只在乎这个词在语料库中有没有出现过。不考虑文法以及词的顺序。

假定给定词典：[我们，又，去，爬山，今天，你们，昨天，跑步]

表示“我们今天去爬山”句子为：[1,0,1,1,1,0,0,0]

③ Count-based Representation

一段文本只考虑用一个装着这些词的袋子来表示，不考虑文法以及词的顺序,只关注每次词出现的次数。

假定给定词典：[我们，又，去，爬山，今天，你们，昨天，跑步]

表示“你们又去爬山又去跑步”句子为：[0,2,2,1,0,1,0,1]

注意：② ③ 可以统称为词袋表示，忽略词的位置信息，词的位置不一样语义会有很大的差别。

分布式表示

word embedding指的是将词转化为一种分布式表示，又称词向量。它可以表示词之间存在的相似关系，词向量能够包含更多信息，并且每一维都有特定的含义。

怎么学习词向量？后续章节将会继续给出

自然语言处理2（文本的表示）相关推荐

NLP之TEA：自然语言处理之文本情感分析的简介、算法、应用、实现流程方法、案例应用之详细攻略
NLP之TEA:自然语言处理之文本情感分析的简介.算法.应用.实现流程.实现方法之详细攻略目录 TEA的简介 TEA的应用 TEA的实现流程 TEA的实现方法 T1.词袋模型 TEA的案例应用 TE ...
最新综述：作为体现具体化自然语言环境的文本世界
©PaperWeekly 原创 · 作者 | 王馨月学校 | 四川大学本科生研究方向 | 自然语言处理概要文本世界是具体化代理(embodied agent)的虚拟环境,与 2D 或 3D 环 ...
自然语言处理文本分析_通过自然语言处理释放文本分析的力量
自然语言处理文本分析深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...
调用百度自然语言接口实现文本分析
目标: 1.掌握SDK文档的使用 2.强化tkinter图像界面的编辑 ttk.Treeview()创建列表,以及树状结构 3.递归函数的使用百度参考文档:https://ai.baidu.com/ ...
AllenNLP系列文章之六：Textual Entailment（自然语言推理－文本蕴含）
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...
Textual Entailment（自然语言推理－文本蕴含） - AllenNLP
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...
【自然语言处理与文本分析】自然语言处理概要
自然语言处理的研究范畴自然语言处理的基本流程文本数据-->分词/词根还原-->词性标注-->[同义词标定]-->[概念标定]-->角色标定-->句法分析--&g ...
自然语言处理研究方向--文本相似度论文合集（不断更新）
1.Learning Text Similarity with Siamese Recurrent Networks | 网络包含4层BiLSTM(64-d hidden),最后一层的BiLSTM的h ...
【自然语言处理】文本相似度算法：TF-IDF与BM25
文本相似度算法:TF-IDF与BM25 1.TF-IDF TF(Term Frequency)是指归一化后的词频,IDF(Inverse Document Frequency)是指逆文档频率.给定一个 ...
python实现自然语言处理之文本分词
自然语言处理(NLP) Siri工作流程: 1. 听 2. 懂 3.思考 4. 组织语言 5.回答语音识别自然语言处理 - 语义分析业务逻辑分析 - 结合场景上下文自然语言处理 - 分析结果 ...

自然语言处理2（文本的表示）

自然语言处理2（文本的表示）相关推荐

最新文章

热门文章