在NLP任务中我们要把文字表示成计算机能够运算的数字或向量。主要分为两类:一类是离散表示,另一类是分布式表示。

离散表示有三种方法:

① One-hot编码

在一个语料库中,给每个字、词编码一个索引,根据索引进行one-hot表示。

假定给定词典:[我们,去,爬山,今天,你们,昨天,跑步]

每个单词的表示为:

我们:[1,0,0,0,0,0,0]

爬山:[0,0,1,0,0,0,0]

注意:把每个词表示为一个长向量,长度是词典长度,不同词的向量表示互相正交(正交是两向量的内积等于0),无法表达单词与单词之间的相似程度。词向量只能反映某个词是否在句子中出现过,无法衡量不同词的重要程度。

② Boolean Representation

一段文本只考虑用一个装着这些词的袋子来表示,只在乎这个词在语料库中有没有出现过。不考虑文法以及词的顺序。

假定给定词典:[我们,又,去,爬山,今天,你们,昨天,跑步]

表示“我们 今天 去 爬山”句子为:[1,0,1,1,1,0,0,0]

③ Count-based Representation

一段文本只考虑用一个装着这些词的袋子来表示,不考虑文法以及词的顺序,只关注每次词出现的次数。

假定给定词典:[我们,又,去,爬山,今天,你们,昨天,跑步]

表示“你们 又 去 爬山 又 去 跑步”句子为:[0,2,2,1,0,1,0,1]

注意:② ③ 可以统称为词袋表示,忽略词的位置信息,词的位置不一样语义会有很大的差别。

分布式表示

word embedding指的是将词转化为一种分布式表示,又称词向量。它可以表示词之间存在的相似关系,词向量能够包含更多信息,并且每一维都有特定的含义。

怎么学习词向量?后续章节将会继续给出

自然语言处理2(文本的表示)相关推荐

  1. NLP之TEA:自然语言处理之文本情感分析的简介、算法、应用、实现流程方法、案例应用之详细攻略

    NLP之TEA:自然语言处理之文本情感分析的简介.算法.应用.实现流程.实现方法之详细攻略 目录 TEA的简介 TEA的应用 TEA的实现流程 TEA的实现方法 T1.词袋模型 TEA的案例应用 TE ...

  2. 最新综述:作为体现具体化自然语言环境的文本世界

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 概要 文本世界是具体化代理(embodied agent)的虚拟环境,与 2D 或 3D 环 ...

  3. 自然语言处理文本分析_通过自然语言处理释放文本分析的力量

    自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...

  4. 调用百度自然语言接口实现文本分析

    目标: 1.掌握SDK文档的使用 2.强化tkinter图像界面的编辑 ttk.Treeview()创建列表,以及树状结构 3.递归函数的使用 百度参考文档:https://ai.baidu.com/ ...

  5. AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)

    自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...

  6. Textual Entailment(自然语言推理-文本蕴含) - AllenNLP

    自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理.最近在看AllenNLP包的时候,里面有个模块:文本蕴含任务(text en ...

  7. 【自然语言处理与文本分析】自然语言处理概要

    自然语言处理的研究范畴 自然语言处理的基本流程 文本数据-->分词/词根还原-->词性标注-->[同义词标定]-->[概念标定]-->角色标定-->句法分析--&g ...

  8. 自然语言处理研究方向--文本相似度论文合集(不断更新)

    1.Learning Text Similarity with Siamese Recurrent Networks | 网络包含4层BiLSTM(64-d hidden),最后一层的BiLSTM的h ...

  9. 【自然语言处理】文本相似度算法:TF-IDF与BM25

    文本相似度算法:TF-IDF与BM25 1.TF-IDF TF(Term Frequency)是指归一化后的词频,IDF(Inverse Document Frequency)是指逆文档频率.给定一个 ...

  10. python实现自然语言处理之文本分词

    自然语言处理(NLP) Siri工作流程: 1. 听 2. 懂 3.思考 4. 组织语言 5.回答 语音识别 自然语言处理 - 语义分析 业务逻辑分析 - 结合场景 上下文 自然语言处理 - 分析结果 ...

最新文章

  1. Python中的sort() key含义
  2. winform 窗口 属性
  3. freeRtos学习笔记 (9) 移植和CPU利用率统计
  4. python以下导入包的格式错误的是_ICMP python上的错误数据包
  5. 北京 || Java 技术、生活、工作交流社区
  6. Mybatis_day3_Mybatis的多表查询
  7. linux使用ftp命令_如何使用Linux FTP命令
  8. 微型计算机的现状历史未来,微型计算机的发展历史、现状和未来
  9. 《人人都是产品经理》读后小结
  10. 探访蔚来合肥工厂:是ES8与ES6生产基地 能年产10万台
  11. linux中安装yum简单方法
  12. 平台式惯性导航系统简介(持续更新ing)
  13. 数据库管理系统(DBMS)
  14. javascript 纯前端实现汉字转拼音 —— pinyin-pro 库
  15. JS正则验证输入框姓名只能输入中文和英文
  16. zynq7000 中断原理分析及IO中断解析
  17. Windows下使用Docker搭建Kafka
  18. 聚点 内部 内点 导集
  19. [python运维] 使用python3制作一个mysql压测小工具!
  20. 网络 CIDR 子网掩码 可用主机数计算

热门文章

  1. Matlab移动色带位置
  2. 用js改变背景图的位置
  3. 员工转正工作总结范文
  4. PHP著名开源项目汇总(LAMP)
  5. [原创+源码]超简单:基于jQuery实现的选项卡(滑动门)效果
  6. 阿里云盘内测_阿里云盘内测码,每日限量,先到先得
  7. 计算机毕业设计Java学生考勤管理系统(源码+系统+mysql数据库+lw文档
  8. 红楼梦 各版本及资料
  9. 从立项到发布仅三个月,开源技术问答社区 Answer 是如何诞生的?
  10. 粗糙集 遗传matlab,一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法...