目录

  • 1 目的和思想
  • 2 模型原理
    • 2.1 PV-DM(段落向量的分布式存储模型)
    • 2.2 PV-DBOW (段落向量的分布式单词包版本)
  • 3 doc2vec 总结
  • 4 应用任务

1 目的和思想

doc2vec 模型的目的:创建文档向量表示
doc2vec 的整体思想:在word2vec的基础上增加了可训练句子的矩阵
doc2vec 是无监督学习
模型出自论文: Distributed Representations of Sentences and Documents

2 模型原理

模型实现(两种方法):

  1. PV-DM + softmax
  2. PV-DBOW + softmax

训练阶段:给出一组文档,为每个单词生成词向量W,并为每个文档生成文档向量D,训练 softmax 隐藏层的权重。
预测阶段:固定 softmax 等权重以计算文档向量,随机初始化文档向量,不断迭代更新文档向量,所有参数均不变,训练使用时间少

2.1 PV-DM(段落向量的分布式存储模型)

在CBOW基础上,增加 Paragraph Vector表示文档的向量D,在D中取矩阵中的一列作为输入层的输入,在词向量W中取一列,将段落向量和词向量进行运算得到 X 向量,用 X 向量来预测词

2.2 PV-DBOW (段落向量的分布式单词包版本)

在skip-gram基础上,利用句子向量预测词,该算法实际上更快,并且消耗更少的内存,因为不需要保存词向量

3 doc2vec 总结

doc2vec 是在word2vec的基础上进行了修改,在输入层上增加了Paragraph vector,不仅能训练出词向量还能训练出句子向量,咋子迭代更新的过程中,句子向量不断的稳定,更能代表一句话的主旨。在预测新句子时,参数不变,用梯度下降求得句子向量,速度也非常快

通过学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签

4 应用任务

文中应用任务:

  1. 情感分析
  2. 信息检索

doc2vec 文档向量相关推荐

  1. 使用deeplearning4j训练Doc2Vec(文档向量)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 训练文档向量 在上一小节中,本人介绍了使用DeepLea ...

  2. 【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)

    觉得有帮助请点赞关注收藏~~~ 一.文本向量化 文本向量化:将文本信息表示成能够表达文本语义的向量,是用数值向量来表示文本的语义. 词嵌入(Word Embedding):一种将文本中的词转换成数字向 ...

  3. 基于gensim的Deep learning with paragraph2vec 官方models.doc2vec文档解释

    ♦版权声明:转载时请注明出处URL,谢谢大家~ ♦文章声明:博主为在校生,基于学习兴趣作此文章,与大家分享.水平有限,恳请大家批评指正~ gensim介绍 [官网] gensim是一款强大的自然语言处 ...

  4. Keras深度学习实战(26)——文档向量详解

    Keras深度学习实战(26)--文档向量详解 0. 前言 1. 文档向量基本概念 2. 神经网络模型与数据集分析 2.1 模型分析 2.2 数据集介绍 3. 利用 Keras 构建神经网络模型生成文 ...

  5. 中文自然语言处理--文档向量Doc2Vec

    Doc2Vec 是 Mikolov 在 Word2Vec 基础上提出的另一个用于计算长文本向量的工具,Doc2Vec 将文档语料通过一个固定长度的向量表达. from gensim.models.do ...

  6. WMD:基于词向量的文档相似度计算

    EMD算法简介 该部分引用自[1] Earth Mover's Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定义,可以用来测量某分布之间的距离.EMD主要应用在图像处理和语音信 ...

  7. 文档词频矩阵_论文理解:从词嵌入到文档距离

    论文作者简介 本论文第一作者Matt J. Kusner是牛津大学的副教授,致力于设计适应现实世界问题需求的新机器学习模型(例如,fair algorithms, discrete generativ ...

  8. 四个数据欧几里得距离_从单词嵌入到文档距离 :WMD一种有效的文档分类方法...

    文档分类和文档检索已显示出广泛的应用. 文档分类的重要部分是正确生成文档表示. 马特·库斯纳(Matt J. Kusner)等人在2015年提出了Word Mover's Distance(WMD)[ ...

  9. 2引擎帮助文档_使用Sentence Transformers和Faiss构建语义搜索引擎

    介绍 您是否曾经想过如何使用Sentence Transformers创建嵌入向量,并在诸如语义文本相似这样的下游任务中使用它们? 在本教程中,您将学习如何使用Sentence Transformer ...

最新文章

  1. 《C#精彩实例教程》小组阅读12 -- C#面向对象技术高级应用
  2. Javascript实现动态菜单添加
  3. python更新pip失败-新手求助, python 升级 pip 失败
  4. 学成在线--5.CMS页面管理开发(修改页面)
  5. css-背景图片和渐变
  6. qt中生成含有中文的json文件,读取含有中文的json文件
  7. python日志模块 限制日志记录数_python日志记录-logging模块
  8. 解决Xcode在debug时不在断点处停止的方法<转>
  9. 如何在 macOS 中批量重命名文件?
  10. 1.5(java学习笔记)this关键字
  11. Matlab使用for循环将多个行向量合成一个行向量或者一个多维矩阵
  12. Android浸入式
  13. OpenCV最简JAVA版范例
  14. vant 个人中心头像修改
  15. 不小心隐藏IDEA的main menu,让它恢复显示的解决方法
  16. vue 创建桌面应用
  17. Python微信公众号开发平台
  18. win10计算机怎么改中文,windows10 中文,小编教你Win10怎么设置中文语言
  19. Web工程师和设计师必须要知道的 iOS 8的十个变化
  20. tkinter实现图片自适应

热门文章

  1. The Git repository at the following path is in the detached HEAD state
  2. vue的调试工具 vue-devtools
  3. 物流快递APP开发基础功能
  4. Vue中安装pubsub-js库报错相关事宜
  5. EXSi不小心直通所有网卡
  6. windows重装了系统oracle数据库恢复
  7. EasyStack仅仅是重新定义超融合么?
  8. 计算机专业方面需要显卡,专业设计制图需要什么样的电脑?制图电脑配置要求 (全文)...
  9. 罗丹明PEG活性酯 RB-PEG-NHS,罗丹明聚乙二醇活性酯,Rhodamine-PEG-NHS
  10. matlab lzc,人脸分割 matlab程序