自然语言处理2(文本的表示)
在NLP任务中我们要把文字表示成计算机能够运算的数字或向量。主要分为两类:一类是离散表示,另一类是分布式表示。
离散表示有三种方法:
① One-hot编码
在一个语料库中,给每个字、词编码一个索引,根据索引进行one-hot表示。
假定给定词典:[我们,去,爬山,今天,你们,昨天,跑步]
每个单词的表示为:
我们:[1,0,0,0,0,0,0]
爬山:[0,0,1,0,0,0,0]
注意:把每个词表示为一个长向量,长度是词典长度,不同词的向量表示互相正交(正交是两向量的内积等于0),无法表达单词与单词之间的相似程度。词向量只能反映某个词是否在句子中出现过,无法衡量不同词的重要程度。
② Boolean Representation
一段文本只考虑用一个装着这些词的袋子来表示,只在乎这个词在语料库中有没有出现过。不考虑文法以及词的顺序。
假定给定词典:[我们,又,去,爬山,今天,你们,昨天,跑步]
表示“我们 今天 去 爬山”句子为:[1,0,1,1,1,0,0,0]
③ Count-based Representation
一段文本只考虑用一个装着这些词的袋子来表示,不考虑文法以及词的顺序,只关注每次词出现的次数。
假定给定词典:[我们,又,去,爬山,今天,你们,昨天,跑步]
表示“你们 又 去 爬山 又 去 跑步”句子为:[0,2,2,1,0,1,0,1]
注意:② ③ 可以统称为词袋表示,忽略词的位置信息,词的位置不一样语义会有很大的差别。
分布式表示
word embedding指的是将词转化为一种分布式表示,又称词向量。它可以表示词之间存在的相似关系,词向量能够包含更多信息,并且每一维都有特定的含义。
怎么学习词向量?后续章节将会继续给出
自然语言处理2(文本的表示)相关推荐
- NLP之TEA:自然语言处理之文本情感分析的简介、算法、应用、实现流程方法、案例应用之详细攻略
NLP之TEA:自然语言处理之文本情感分析的简介.算法.应用.实现流程.实现方法之详细攻略 目录 TEA的简介 TEA的应用 TEA的实现流程 TEA的实现方法 T1.词袋模型 TEA的案例应用 TE ...
- 最新综述:作为体现具体化自然语言环境的文本世界
©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 概要 文本世界是具体化代理(embodied agent)的虚拟环境,与 2D 或 3D 环 ...
- 自然语言处理文本分析_通过自然语言处理释放文本分析的力量
自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...
- 调用百度自然语言接口实现文本分析
目标: 1.掌握SDK文档的使用 2.强化tkinter图像界面的编辑 ttk.Treeview()创建列表,以及树状结构 3.递归函数的使用 百度参考文档:https://ai.baidu.com/ ...
- AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...
- Textual Entailment(自然语言推理-文本蕴含) - AllenNLP
自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...
- 【自然语言处理与文本分析】自然语言处理概要
自然语言处理的研究范畴 自然语言处理的基本流程 文本数据-->分词/词根还原-->词性标注-->[同义词标定]-->[概念标定]-->角色标定-->句法分析--&g ...
- 自然语言处理研究方向--文本相似度论文合集(不断更新)
1.Learning Text Similarity with Siamese Recurrent Networks | 网络包含4层BiLSTM(64-d hidden),最后一层的BiLSTM的h ...
- 【自然语言处理】文本相似度算法:TF-IDF与BM25
文本相似度算法:TF-IDF与BM25 1.TF-IDF TF(Term Frequency)是指归一化后的词频,IDF(Inverse Document Frequency)是指逆文档频率.给定一个 ...
- python实现自然语言处理之文本分词
自然语言处理(NLP) Siri工作流程: 1. 听 2. 懂 3.思考 4. 组织语言 5.回答 语音识别 自然语言处理 - 语义分析 业务逻辑分析 - 结合场景 上下文 自然语言处理 - 分析结果 ...
最新文章
- Python中的sort() key含义
- winform 窗口 属性
- freeRtos学习笔记 (9) 移植和CPU利用率统计
- python以下导入包的格式错误的是_ICMP python上的错误数据包
- 北京 || Java 技术、生活、工作交流社区
- Mybatis_day3_Mybatis的多表查询
- linux使用ftp命令_如何使用Linux FTP命令
- 微型计算机的现状历史未来,微型计算机的发展历史、现状和未来
- 《人人都是产品经理》读后小结
- 探访蔚来合肥工厂:是ES8与ES6生产基地 能年产10万台
- linux中安装yum简单方法
- 平台式惯性导航系统简介(持续更新ing)
- 数据库管理系统(DBMS)
- javascript 纯前端实现汉字转拼音 —— pinyin-pro 库
- JS正则验证输入框姓名只能输入中文和英文
- zynq7000 中断原理分析及IO中断解析
- Windows下使用Docker搭建Kafka
- 聚点 内部 内点 导集
- [python运维] 使用python3制作一个mysql压测小工具!
- 网络 CIDR 子网掩码 可用主机数计算
热门文章
- Matlab移动色带位置
- 用js改变背景图的位置
- 员工转正工作总结范文
- PHP著名开源项目汇总(LAMP)
- [原创+源码]超简单:基于jQuery实现的选项卡(滑动门)效果
- 阿里云盘内测_阿里云盘内测码,每日限量,先到先得
- 计算机毕业设计Java学生考勤管理系统(源码+系统+mysql数据库+lw文档
- 红楼梦 各版本及资料
- 从立项到发布仅三个月,开源技术问答社区 Answer 是如何诞生的?
- 粗糙集 遗传matlab,一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法...