可视化词向量-TSNE
可视化词向量的好处是可以验证训练的词向量的效果,常采用TSNE方法可视化。
t-分布领域嵌入算法,它只用于已标注数据时才真正有意义,可以明确显示出输入的聚类状况。
主要想法是将高维分布点的距离用条件概率来表示相似性,同时低维分布的点也是这样表示。只要二者的条件概率非常接近(用相对熵来训练,所以需要label),那就说明高维分布的点已经映射到低维分布上了。
难点:
1.高维距离较近的点,比较方便聚在一起,但是高维距离较远的点,却比较难在低维拉开距离。
2.训练时间较长,占用内存大。
from sklearn.manifold import TSNE
import numpy as np
import matplotlib.pyplot as plt
import random#因为词向量文件比较大,全部可视化就什么都看不见了,所以随机抽取一些词可视化
words = list(model.wv.vocab)
random.shuffle(words)vector = model[words]
tsne = TSNE(n_components=2,init='pca',verbose=1)
embedd = tsne.fit_transform(vector)#可视化
plt.figure(figsize=(14,10))
plt.scatter(embedd[:300,0], embedd[:300,1])for i in range(300):x = embedd[i][0]y = embedd[i][1]plt.text(x, y, words[i])
plt.show()
可视化词向量-TSNE相关推荐
- keras 生成句子向量 词向量_Keras中使用TensorBoard可视化词向量
1. 前言 最近几天都耗在了词向量的训练以及可视化上,期间遇到了一些坑,也了解到一些容易忽略的知识点,在此一并记录下来,给自己也给大家一个警示. 2. keras中的TensorBoard Tenso ...
- whatlies包 | 简单玩转词向量可视化
whatlies 可以与spacy语言模型结合,可视化词向量.安装zh_core_web_md.en_core_web_md和whatlies.具体文档可以查看https://github.com/R ...
- 背景区域为负样本什么意思_词向量-skipgram与负采样
大纲: 1. onehot vs 分布式表示 2. 分布式表示的全局泛化能力 3. how to learn word2vec - intuition 4. SkipGram 5. SkipGram ...
- GENSIM官方教程(4.0.0beta最新版)-Word2Vec词向量模型
GENSIM官方教程(4.0.0beta最新版)-词向量模型 译文目录 回顾:词袋模型 简介:词向量模型 词向量模型训练实例 训练一个你自己的模型 储存和加载模型 训练参数 内存相关的细节 模型评估 ...
- Word2Vec词向量模型代码
Word2Vec也称Word Embedding,中文的叫法是"词向量"或"词嵌入",是一种计算非常高效的,可以从原始语料中学习字词空间向量的预测模型.Word ...
- 自然语言处理(NLP):23 Word2Vec词向量研究以及实践
本文主要同大家分享word2vec原理以及应用,通过文本相似度和新闻文本分类为案例进行展开,最后对词向量技术发展进行简述. 作者:走在前方 博客:https://wenjie.blog.csdn.ne ...
- 【Pytorch基础教程37】Glove词向量训练及TSNE可视化
note Glove模型目标:词的向量化表示,使得向量之间尽可能多蕴含语义和语法信息.首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量. 对词向量计算相似度可以用cos相似度 ...
- tensorflow实现Word2Vec——生成词向量以及降维可视化
以下代码来源与<Tensorflow实战>,来自Github上的tensorflow开源实现,代码非常简洁,可读性高,对于研究NLP.tensorflow.python编程等有很大帮助. ...
- 基于中文维基百科的词向量构建及可视化
你将使用Gensim和维基百科获得你的第一批中文词向量,并且感受词向量训练的基本过程. 词向量原理详解请参考: 词向量技术原理及应用详解(一) 词向量技术原理及应用详解(二) 词向量技术原理及应用详解 ...
最新文章
- vscode 这是一个好同志
- android 代码设置alignleft,如何动态的设置Relative Layout中按钮的layout_align_parent_right属性...
- win2003服务器定时自动重启命令[计划任务]
- jhipster 配置 mysql_JHipster 基础使用
- python下载-各种版本的Python下载安装教程
- pio代表什么_“PIO是什么的简称?PIO”是什么的 – 手机爱问
- 从蒙到入门——JavaEE完整体系架构
- 利用npm命令创建一个Vue项目并安装依赖
- 最近几天,VirtualBox虚拟机坏了多次,备份很重要
- CAd常用的系统变量
- 数字电路基础知识——时序逻辑电路之存储器(SRAM、DRAM、ROM)
- c语言无符号数最大值和最小值,c语言 int最大值是多少?
- 五年级春期计算机教案,五年级下册信息技术教案
- 关于使用实验室服务器的GPU以及跑上TensorFlow代码
- 中国互联网公司和他们的口号
- linux 免费教程下载,Linux系统入门教程
- Andriod 电池检测NTC电阻值的软件设定
- WAP手机安全上网防病毒攻略
- HTTP的缓存设置Cache-Control
- 俩台虚拟机,一台有网,一台没网