可视化词向量的好处是可以验证训练的词向量的效果,常采用TSNE方法可视化。

t-分布领域嵌入算法,它只用于已标注数据时才真正有意义,可以明确显示出输入的聚类状况。

主要想法是将高维分布点的距离用条件概率来表示相似性,同时低维分布的点也是这样表示。只要二者的条件概率非常接近(用相对熵来训练,所以需要label),那就说明高维分布的点已经映射到低维分布上了。

难点:

1.高维距离较近的点,比较方便聚在一起,但是高维距离较远的点,却比较难在低维拉开距离。

2.训练时间较长,占用内存大。

from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt
import random#因为词向量文件比较大,全部可视化就什么都看不见了,所以随机抽取一些词可视化
words = list(model.wv.vocab)
random.shuffle(words)vector = model[words]
tsne = TSNE(n_components=2,init='pca',verbose=1)
embedd = tsne.fit_transform(vector)#可视化
plt.figure(figsize=(14,10))
plt.scatter(embedd[:300,0], embedd[:300,1])for i in range(300):x = embedd[i][0]y = embedd[i][1]plt.text(x, y, words[i])
plt.show()

可视化词向量-TSNE相关推荐

  1. keras 生成句子向量 词向量_Keras中使用TensorBoard可视化词向量

    1. 前言 最近几天都耗在了词向量的训练以及可视化上,期间遇到了一些坑,也了解到一些容易忽略的知识点,在此一并记录下来,给自己也给大家一个警示. 2. keras中的TensorBoard Tenso ...

  2. whatlies包 | 简单玩转词向量可视化

    whatlies 可以与spacy语言模型结合,可视化词向量.安装zh_core_web_md.en_core_web_md和whatlies.具体文档可以查看https://github.com/R ...

  3. 背景区域为负样本什么意思_词向量-skipgram与负采样

    大纲: 1. onehot vs 分布式表示 2. 分布式表示的全局泛化能力 3. how to learn word2vec - intuition 4. SkipGram 5. SkipGram ...

  4. GENSIM官方教程(4.0.0beta最新版)-Word2Vec词向量模型

    GENSIM官方教程(4.0.0beta最新版)-词向量模型 译文目录 回顾:词袋模型 简介:词向量模型 词向量模型训练实例 训练一个你自己的模型 储存和加载模型 训练参数 内存相关的细节 模型评估 ...

  5. Word2Vec词向量模型代码

    Word2Vec也称Word Embedding,中文的叫法是"词向量"或"词嵌入",是一种计算非常高效的,可以从原始语料中学习字词空间向量的预测模型.Word ...

  6. 自然语言处理(NLP):23 Word2Vec词向量研究以及实践

    本文主要同大家分享word2vec原理以及应用,通过文本相似度和新闻文本分类为案例进行展开,最后对词向量技术发展进行简述. 作者:走在前方 博客:https://wenjie.blog.csdn.ne ...

  7. 【Pytorch基础教程37】Glove词向量训练及TSNE可视化

    note Glove模型目标:词的向量化表示,使得向量之间尽可能多蕴含语义和语法信息.首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量. 对词向量计算相似度可以用cos相似度 ...

  8. tensorflow实现Word2Vec——生成词向量以及降维可视化

    以下代码来源与<Tensorflow实战>,来自Github上的tensorflow开源实现,代码非常简洁,可读性高,对于研究NLP.tensorflow.python编程等有很大帮助. ...

  9. 基于中文维基百科的词向量构建及可视化

    你将使用Gensim和维基百科获得你的第一批中文词向量,并且感受词向量训练的基本过程. 词向量原理详解请参考: 词向量技术原理及应用详解(一) 词向量技术原理及应用详解(二) 词向量技术原理及应用详解 ...

最新文章

  1. vscode 这是一个好同志
  2. android 代码设置alignleft,如何动态的设置Relative Layout中按钮的layout_align_parent_right属性...
  3. win2003服务器定时自动重启命令[计划任务]
  4. jhipster 配置 mysql_JHipster 基础使用
  5. python下载-各种版本的Python下载安装教程
  6. pio代表什么_“PIO是什么的简称?PIO”是什么的 – 手机爱问
  7. 从蒙到入门——JavaEE完整体系架构
  8. 利用npm命令创建一个Vue项目并安装依赖
  9. 最近几天,VirtualBox虚拟机坏了多次,备份很重要
  10. CAd常用的系统变量
  11. 数字电路基础知识——时序逻辑电路之存储器(SRAM、DRAM、ROM)
  12. c语言无符号数最大值和最小值,c语言 int最大值是多少?
  13. 五年级春期计算机教案,五年级下册信息技术教案
  14. 关于使用实验室服务器的GPU以及跑上TensorFlow代码
  15. 中国互联网公司和他们的口号
  16. linux 免费教程下载,Linux系统入门教程
  17. Andriod 电池检测NTC电阻值的软件设定
  18. WAP手机安全上网防病毒攻略
  19. HTTP的缓存设置Cache-Control
  20. 俩台虚拟机,一台有网,一台没网

热门文章

  1. Nature Aging | 激活FOXM1基因人类寿命或翻倍
  2. 华北科技学院java考试题_华北科技学院java课程设计报告简易计算器
  3. 【Latex】使用bib文件,生成参考文献,避免漏掉、多出、错排参考文献问题
  4. 台式机进入BIOS后黑屏
  5. 西财计算机研究生专硕复试分数线,2017年西南财经大学考研复试分数线
  6. 16 二维数据的格式化和处理
  7. 【转】给在读研究生+未来要读研同学们的一封信
  8. ubuntu16.04_64位系统兼容32位软件
  9. 小白和坑爹的ATI显卡
  10. 设置Linux系统欢迎语