1、首先,Word2vec是词聚类,LDA是主题词聚类

2、也许在方法模型上,他们两者是不同的,但是产生的结果从语义上来说,都是相当于近义词的聚类,只不过LDA是基于隐含主题的,WORD2VEC是基于词的上下文的,或者说LDA关注doc和word的共现,而word2vec真正关注的是word和context的共现

3、更严谨的说,词向量所体现的是语义(semantic)和语法(syntactic)这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题(topic)这一层的信息。比如:
1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?
2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。
3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。

反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。
这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。
PS. 说起来,拿LDA和doc2vec比较才比较合理啊~~

4、word2vec+kmeans 和lda

word2vec+kmeans是先用word2vec把词表示为向量,然后用kmeans聚类,聚类的结果 应该是挺好的,但是和lda比,多了一些无用词的聚类,比如,我拿技术博客做预料,用lda聚类,聚出来的  都是技术相关的,因为lda是有个主题提取的过程;

而word2vec除了聚出一些技术的类,比如

结点
根节点
此树
结点数目
空树
子树中
子树结
叶子结点
子树
历根结
叶子
前趋
树上
第一棵
历树
二叉树
左子结
这棵
子树根
一棵
子树递
前驱
任一结
孩子
节点均
父节点
rightchild
后继结
树种
子结点
叶结点
右子树
三叉
左子树
这颗
整棵
兄弟结点
叶结
leftchild
满二叉
满二叉树
后继
整棵树
左子
叶子节点
rchild
孩子结点
树节点

fileinputstream
newfileinputstream
newfileoutputstream
fileoutputstream
向文件写入
输入流
readchar
inputstream
fos
outputstream
printstream
readbyte
readstring
filereader
printwriter
writeto
bufferreader
writer
reader
readlong
bufferedoutputstream
bufferedinputstream
bufferwriter
stringbufferinputstream
outstream
pushbackinputstream
instream
filewriter
raf
readline
datastream
stringreader
bytearrayinputstream
writelines
getchannel
dataoutputstream
filterreader
stringwriter
从文件
readbytes
datainputstream
bufferedreader
bytearrayoutputstream
streamwriter
writebytes
randomaccessfile

还聚出非技术类的

算出
加起来
求出
之和
算出来
就求
所求
求得
易得
减去
易知
无解
可得
题中
上数
则有
记为
数了
本题
数里
可求
找出
18次
种数
乘起来
连加
数算
求异
规律
乘积
算下
算过
凑出
二倍
理得
是多少
推求
数对
数模
0数
乘了
数遍
奇偶
累加
多解
数出
多1个推求

年度
五天
月初
上个月
7月
12月
09月
月底
月末
一个月
这一天
05月
31日
几月
一年
4月
10年
5日
11日
6日
当天
15日
那天
27日
第一年
14日
国庆节
上月
每年
13日
2013年
28日
7日
25号
5月
日子
今天是
4年
8日

开始我是不太理解,看了上面的原理解释,瞬间释怀,不得不说 word2vec聚相关的词还是很牛的

Word2vec与LDA的聚类区别相关推荐

  1. word2vec 和 doc2vec 相似和区别

    Word2vec 算法 CBOW 和 Skip-Gram模型 CBOW通过周围词找到当前词,Skip-Gram通过当前词找到周围词,都是使用评估概率找到概率最大的 doc2vec 在word2vec的 ...

  2. 【NLP】文本LDA主题聚类主题词生成PyLDAvis可视化

    [NLP]文本LDA主题聚类&主题词生成&可视化 LDA主题聚类 这是NLP中常用的一类方法,一般Sklearn,genism里有可以实现.一般结果会有文档-主题model(即说明每个 ...

  3. CountVectorizer,Tf-idfVectorizer和word2vec构建词向量的区别

    CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountV ...

  4. 用 word2vec 进行文档聚类

    在前面几篇文章中我们学习了 word2vec 的两种模型 CBOW 和 Skip-Gram,了解了它们的基本原理,数学思想,还有代码实现. word2vec 有很多优点,它的概念比较容易理解,训练速度 ...

  5. 分类聚类区别及聚类概述

    在初学分类聚类时,对这两个概念不是很了解.随着深入的了解,现有了一些基本的认识.现对聚类进行个人理解上的总结,欢迎大家批评指正. 一.分类和聚类的区别 分类和聚类的概念是比较容易混淆的. 对于分类来说 ...

  6. 利用word2vec对关键词进行聚类

    继上次提取关键词之后,项目组长又要求我对关键词进行聚类.说实话,我不太明白对关键词聚类跟新闻推荐有什么联系,不过他说什么我照做就是了. 按照一般的思路,可以用新闻ID向量来表示某个关键词,这就像广告推 ...

  7. python 文本分析 LDA 文本聚类

    文章目录 精简2.0版 精简1.0版 选择主题个数 困惑度.一致性 网页可视化 旧版本,啰嗦的代码 以中文为例 参考文档: python corpora.Dictionary corpus dicti ...

  8. 2020年数维杯数学建模A题舆情监测情感倾向分析建模求解全过程文档及程序

    2020年数维杯数学建模 A题 舆情监测情感倾向分析建模 原题再现:   公共危机事件爆发时,如拍石击水,相关信息在短时间内迅速传播,引起群众的广泛关注.其中负面报道或者主观片面的一些失实评判常常在一 ...

  9. 文本话题聚类(Kmeans/LDA)

    K-means 1 聚类是一种无监督的学习方法.聚类区别于分类,即事先不知道要寻找的内容,没有预先设定好的目标变量. 2 聚类将数据点归到多个簇中,其中相似的数据点归为同一簇,而不相似的点归为不同的簇 ...

最新文章

  1. 微信支付通知 php,微信支付开发交易通知实例
  2. format 转化时间格式不起作用
  3. 21.等值线图(Counter Plot)、Contour Demo、Creating a “meshgrid”、Calculation of the Values、等
  4. Grunt 入门指南5:项目脚手架
  5. url 特殊字符 传递参数解决方法
  6. “不服跑个分?” 是噱头还是实力?
  7. php 错误提示模板,php 关闭错误提示方法总结与性能分析
  8. 能套用的tab栏切换
  9. 智能电动自行车充电桩系统解决方案
  10. IME Starters Try-outs 2018 F - First Day + G - Greatest IME
  11. 【每周论文】Graphene: Packing and Dependency-aware Scheduling for Data-Parallel Clusters(OSDI 2016)
  12. 什么因素影响无刷马达绕线机的精度
  13. 6572 Phone call分析
  14. 关于百度 OpenRASP 的个人拙见
  15. VUE项目中高德地图选择坐标和输入搜索功能
  16. 再来学习一下“八荣八耻”
  17. 一个 IT 人的自传,我在语雀开源人生
  18. Centos(操作系统)
  19. EBS 清除node信息 fnd_conc_clone.setup_clean
  20. 未来教育计算机一级上网题每次都是零分,计算机一级MS模拟上网题为什么总是0分??!!...

热门文章

  1. kernel - 制作linux开机logo
  2. 2014【史上最全】的中国各行业竞争格局
  3. WIN10下没有NVIDIA控制面板的解决办法
  4. miui7开发版 Android6.0,Android 6.0 MIUI7开发版内测开始推送:
  5. 电脑上怎么调出输入法
  6. socket closed解决办法
  7. 漫威商业逆袭成功秘诀
  8. 计算机考研数学考一还是二,考研我不知道自己考数一还是数学二
  9. 群晖外网映射网络盘符访问教程[转]
  10. ubuntu 下应用 Python 和 SL4A 的 Android 应用程序搭建您自己的android研发环境