doc2vec 文档向量
目录
- 1 目的和思想
- 2 模型原理
- 2.1 PV-DM(段落向量的分布式存储模型)
- 2.2 PV-DBOW (段落向量的分布式单词包版本)
- 3 doc2vec 总结
- 4 应用任务
1 目的和思想
doc2vec 模型的目的:创建文档向量表示
doc2vec 的整体思想:在word2vec的基础上增加了可训练句子的矩阵
doc2vec 是无监督学习
模型出自论文: Distributed Representations of Sentences and Documents
2 模型原理
模型实现(两种方法):
- PV-DM + softmax
- PV-DBOW + softmax
训练阶段:给出一组文档,为每个单词生成词向量W,并为每个文档生成文档向量D,训练 softmax 隐藏层的权重。
预测阶段:固定 softmax 等权重以计算文档向量,随机初始化文档向量,不断迭代更新文档向量,所有参数均不变,训练使用时间少
2.1 PV-DM(段落向量的分布式存储模型)
在CBOW基础上,增加 Paragraph Vector表示文档的向量D,在D中取矩阵中的一列作为输入层的输入,在词向量W中取一列,将段落向量和词向量进行运算得到 X 向量,用 X 向量来预测词
2.2 PV-DBOW (段落向量的分布式单词包版本)
在skip-gram基础上,利用句子向量预测词,该算法实际上更快,并且消耗更少的内存,因为不需要保存词向量
3 doc2vec 总结
doc2vec 是在word2vec的基础上进行了修改,在输入层上增加了Paragraph vector,不仅能训练出词向量还能训练出句子向量,咋子迭代更新的过程中,句子向量不断的稳定,更能代表一句话的主旨。在预测新句子时,参数不变,用梯度下降求得句子向量,速度也非常快
通过学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签
4 应用任务
文中应用任务:
- 情感分析
- 信息检索
doc2vec 文档向量相关推荐
- 使用deeplearning4j训练Doc2Vec(文档向量)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 训练文档向量 在上一小节中,本人介绍了使用DeepLea ...
- 【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
觉得有帮助请点赞关注收藏~~~ 一.文本向量化 文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义. 词嵌入(Word Embedding):一种将文本中的词转换成数字向 ...
- 基于gensim的Deep learning with paragraph2vec 官方models.doc2vec文档解释
♦版权声明:转载时请注明出处URL,谢谢大家~ ♦文章声明:博主为在校生,基于学习兴趣作此文章,与大家分享.水平有限,恳请大家批评指正~ gensim介绍 [官网] gensim是一款强大的自然语言处 ...
- Keras深度学习实战(26)——文档向量详解
Keras深度学习实战(26)--文档向量详解 0. 前言 1. 文档向量基本概念 2. 神经网络模型与数据集分析 2.1 模型分析 2.2 数据集介绍 3. 利用 Keras 构建神经网络模型生成文 ...
- 中文自然语言处理--文档向量Doc2Vec
Doc2Vec 是 Mikolov 在 Word2Vec 基础上提出的另一个用于计算长文本向量的工具,Doc2Vec 将文档语料通过一个固定长度的向量表达. from gensim.models.do ...
- WMD:基于词向量的文档相似度计算
EMD算法简介 该部分引用自[1] Earth Mover's Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定义,可以用来测量某分布之间的距离.EMD主要应用在图像处理和语音信 ...
- 文档词频矩阵_论文理解:从词嵌入到文档距离
论文作者简介 本论文第一作者Matt J. Kusner是牛津大学的副教授,致力于设计适应现实世界问题需求的新机器学习模型(例如,fair algorithms, discrete generativ ...
- 四个数据欧几里得距离_从单词嵌入到文档距离 :WMD一种有效的文档分类方法...
文档分类和文档检索已显示出广泛的应用. 文档分类的重要部分是正确生成文档表示. 马特·库斯纳(Matt J. Kusner)等人在2015年提出了Word Mover's Distance(WMD)[ ...
- 2引擎帮助文档_使用Sentence Transformers和Faiss构建语义搜索引擎
介绍 您是否曾经想过如何使用Sentence Transformers创建嵌入向量,并在诸如语义文本相似这样的下游任务中使用它们? 在本教程中,您将学习如何使用Sentence Transformer ...
最新文章
- 《C#精彩实例教程》小组阅读12 -- C#面向对象技术高级应用
- Javascript实现动态菜单添加
- python更新pip失败-新手求助, python 升级 pip 失败
- 学成在线--5.CMS页面管理开发(修改页面)
- css-背景图片和渐变
- qt中生成含有中文的json文件,读取含有中文的json文件
- python日志模块 限制日志记录数_python日志记录-logging模块
- 解决Xcode在debug时不在断点处停止的方法<转>
- 如何在 macOS 中批量重命名文件?
- 1.5(java学习笔记)this关键字
- Matlab使用for循环将多个行向量合成一个行向量或者一个多维矩阵
- Android浸入式
- OpenCV最简JAVA版范例
- vant 个人中心头像修改
- 不小心隐藏IDEA的main menu,让它恢复显示的解决方法
- vue 创建桌面应用
- Python微信公众号开发平台
- win10计算机怎么改中文,windows10 中文,小编教你Win10怎么设置中文语言
- Web工程师和设计师必须要知道的 iOS 8的十个变化
- tkinter实现图片自适应
热门文章
- The Git repository at the following path is in the detached HEAD state
- vue的调试工具 vue-devtools
- 物流快递APP开发基础功能
- Vue中安装pubsub-js库报错相关事宜
- EXSi不小心直通所有网卡
- windows重装了系统oracle数据库恢复
- EasyStack仅仅是重新定义超融合么?
- 计算机专业方面需要显卡,专业设计制图需要什么样的电脑?制图电脑配置要求 (全文)...
- 罗丹明PEG活性酯 RB-PEG-NHS,罗丹明聚乙二醇活性酯,Rhodamine-PEG-NHS
- matlab lzc,人脸分割 matlab程序