整个项目和使用说明地址:链接:https://pan.baidu.com/s/1my30wyqOk_WJD0jjM7u4TQ 
                                                   提取码:xxe0

关于词向量的理论基础和基础模型都看我之前的文章。里面带有论文和其他博客链接。可以系统学习关于词向量的知识。

之前已经使用numpy手动实现skip-gram,现在使用pytorch框架实现CBOW
这是pytorch官网的CBOW案例的修改,简单明了,没有涉及底层代码,没有层次优化or负采样优化等问题。这里直接使用pytorch实现并且做了结果可视化。

​​​​​​中文词向量:word2vec之skip-gram实现(不使用框架实现词向量模型)_Richard_Kim的博客-CSDN博客

这一次可以使用完整语料进行训练,不用担心内存爆炸问题,使用了cuda加速。

实验原理还是原来那样。

1. 项目结构

2. 需要的依赖:pytorch,numpy,matplotlib,sklearn,tqdm,jieba。

3. 中文乱码问题同上面的skip-gram一样

4.运行

我只设置了100维,没有像skip-gram设置了300维

中文语料运行结果

完整代码 

#!/usr/bin/endimension python
# -#-coding:utf-8 -*-
# author:by ucas iie 魏兴源
# datetime:2021/11/07 16:45:21
# software:PyCharm"""之前已经使用numpy手动实现skip-gram,现在使用pytorch框架实现CBOW这是pytorch官网的CBOW案例的修改,简单明了,没有涉及底层代码,没有层次优化or负采样优化等问题地址:https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html?highlight=cbow
"""
import jieba
import torch
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from tqdm import tqdm, trange# 初始化矩阵
torch.manual_seed(1)# 加载停用词词表
def load_stop_words():"""停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词"""with open('data/stopwords.txt', "r", encoding="utf-8") as f:return f.read().split("\n")# 加载文本,切词
def cut_words():stop_words = load_stop_words()with open('data/zh.txt', encoding='utf8') as f:allData = f.readlines()result = []for words in allData:c_words = jieba.lcut(words)result.append([word for word in c_words if word not in stop_words])return result# 用一个集合存储所有的词
wordList = []
# 调用切词方法
data = cut_words()
count = 0
for words in data:for word in words:if word not in wordList:wordList.append(word)
print("wordList=", wordList)raw_text = wordList
print("raw_text=", raw_text)# 超参数
learning_rate = 0.001
# 放cuda或者cpu里
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# 上下文信息,即涉及文本的前n个和后n个
context_size = 2
# 词嵌入的维度,即一个单词用多少个浮点数表示比如 the=[10.2323,12.132133,4.1219774]...
embedding_dim = 100
epoch = 10def make_context_vector(context, word_to_ix):idxs = [word_to_ix[w] for w in context]return torch.tensor(idxs, dtype=torch.long)# 把所有词集合转成dict
vocab = set(raw_text)
vocab_size = len(vocab)word_to_idx = {word: i for i, word in enumerate(vocab)}
idx_to_word = {i: word for i, word in enumerate(vocab)}# cbow那个词表,即{[w1,w2,w4,w5],"label"}这样形式
data = []
for i in range(2, len(raw_text) - 2):context = [raw_text[i - 2], raw_text[i - 1],raw_text[i + 1], raw_text[i + 2]]target = raw_text[i]data.append((context, target))print(data[:5])class CBOW(nn.Module):def __init__(self, vocab_size, embedding_dim):super(CBOW, self).__init__()self.embeddings = nn.Embedding(vocab_size, embedding_dim)self.proj = nn.Linear(embedding_dim, 128)self.output = nn.Linear(128, vocab_size)def forward(self, inputs):embeds = sum(self.embeddings(inputs)).view(1, -1)out = F.relu(self.proj(embeds))out = self.output(out)nll_prob = F.log_softmax(out, dim=-1)return nll_prob# 模型在cuda训练
model = CBOW(vocab_size, embedding_dim).to(device)
# 优化器
optimizer = optim.SGD(model.parameters(), lr=0.001)
# 存储损失的集合
losses = []
"""负对数似然损失函数,用于处理多分类问题,输入是对数化的概率值。对于包含N NN个样本的batch数据 D ( x , y ) D(x, y)D(x,y),x xx 是神经网络的输出,进行了归一化和对数化处理。y yy是样本对应的类别标签,每个样本可能是C种类别中的一个。
"""
loss_function = nn.NLLLoss()for epoch in trange(epoch):total_loss = 0for context, target in tqdm(data):# 把训练集的上下文和标签都放到GPU中context_vector = make_context_vector(context, word_to_idx).to(device)target = torch.tensor([word_to_idx[target]]).cuda()# print("context_vector=", context_vector)# 梯度清零model.zero_grad()# 开始前向传播train_predict = model(context_vector).cuda()  # 这里要从cuda里取出,不然报设备不一致错误loss = loss_function(train_predict, target)# 反向传播loss.backward()# 更新参数optimizer.step()total_loss += loss.item()losses.append(total_loss)
print("losses-=", losses)# 测试一下,用['present', 'food', 'can', 'specifically']这个上下预测一下模型,正确答案是‘surplus’
context = ['粮食', '出现', '过剩', '恰好']
# 这个变量要放到gpu中,不然又要报设备不一致错误,因为只有把这个数据 同cuda里训练好的数据比较,再能出结果。。很好理解吧
context_vector = make_context_vector(context, word_to_idx).to(device)
# 预测的值
predict = model(context_vector).data.cpu().numpy()
print('Raw text: {}\n'.format(' '.join(raw_text)))
print('Test Context: {}\n'.format(context))
max_idx = np.argmax(predict)
# 输出预测的值
print('Prediction: {}'.format(idx_to_word[max_idx]))# 获取词向量,这个Embedding就是我们需要的词向量,他只是一个模型的一个中间过程
print("CBOW embedding'weight=", model.embeddings.weight)
W = model.embeddings.weight.cpu().detach().numpy()# 生成词嵌入字典,即{单词1:词向量1,单词2:词向量2...}的格式
word_2_vec = {}
for word in word_to_idx.keys():# 词向量矩阵中某个词的索引所对应的那一列即为所该词的词向量word_2_vec[word] = W[word_to_idx[word], :]
print("word2vec=", word_2_vec)"""待转换类型的PyTorch Tensor变量带有梯度,直接将其转换为numpy数据将破坏计算图,因此numpy拒绝进行数据转换,实际上这是对开发者的一种提醒。如果自己在转换数据时不需要保留梯度信息,可以在变量转换之前添加detach()调用。
"""pca = PCA(n_components=2)
principalComponents = pca.fit_transform(W)# 降维后在生成一个词嵌入字典,即即{单词1:(维度一,维度二),单词2:(维度一,维度二)...}的格式
word2ReduceDimensionVec = {}
for word in word_to_idx.keys():word2ReduceDimensionVec[word] = principalComponents[word_to_idx[word], :]# 将生成的字典写入到文件中,字符集要设定utf8,不然中文乱码
with open("CBOW_ZH_wordvec.txt", 'w', encoding='utf-8') as f:for key in word_to_idx.keys():f.write('\n')f.writelines('"' + str(key) + '":' + str(word_2_vec[key]))f.write('\n')# 将词向量可视化
plt.figure(figsize=(20, 20))
# 只画出1000个,太多显示效果很差
count = 0
for word, wordvec in word2ReduceDimensionVec.items():if count < 1000:plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号,否则负号会显示成方块plt.scatter(wordvec[0], wordvec[1])plt.annotate(word, (wordvec[0], wordvec[1]))count += 1
plt.show()

QQ:530193235

中文词向量:使用pytorch实现CBOW相关推荐

  1. 十四、中文词向量训练一

    1.Word2vec介绍 1.1 Word Embedding介绍 WordEmbedding将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量. 1.2 Word2vec 基本内容 Wo ...

  2. github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量

    (给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量.开发者可以轻松获得具有不同属性的预先训练的 ...

  3. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...

  4. 使用transformers框架导入bert模型提取中文词向量

    导言 在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...

  5. 词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法

    词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里.该算法也经历了不断的改进, ...

  6. 基于word2vec的中文词向量训练

    基于word2vec的中文词向量训练 使用katex解析的数学公式,csdn好像不支持 word2vec来源 Google开源 可以在百万数量级的词典和上亿的数据集上进行高效地训练 该工具得到的训练结 ...

  7. Word2Vec中文词向量

    word2vec中文词向量 中文词向量训练 模型保存 模型导入 中文词向量训练 from gensim.models import Word2Vec s = ["被告人 段 某 酒后 与 其 ...

  8. 中文词向量学习记录-综述

    最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章: 参考原文链接:https://bamtercelboo.github.io/2018/08/16/chines ...

  9. 中文词向量论文综述(二)

    导读 最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文.续 --- 中文词向量论文综 ...

最新文章

  1. ASP .NET Core Web MVC系列教程一:创建一个Web应用程序
  2. Leetcode 67. 二进制求和 (每日一题 20210826)
  3. tensorflow随笔-简单CNN(卷积深度神经网络结构)
  4. 编写网关过滤器统一校验登录状态
  5. java addfirst_java – ArrayDeque类的addFirst方法
  6. [导入]MsAjax Lib- Date.format 函数
  7. undefined reference to 'modbus_new_tcp'
  8. 大数据分析项目成功的五项基本原则
  9. Django开发利器——django-debug-toolbar
  10. 爬取菜鸟教程Python100例
  11. 从玄学走向科学:在字节跳动广告投放这么干
  12. ppt如何将表格转化为饼图?
  13. 微信文件没下载过期了
  14. CSS峰会圆桌论道丨共享产业数字化升级中的安全探索
  15. my python voyage
  16. js对象、数字深拷贝方式(转)
  17. Android OTA升级原理和流程分析(五)---update.zip包从上层进入Recovery服务
  18. schedulewithfixeddelay
  19. reload php-fpm命令,php-fpm的reload过程
  20. 【MySQL】MySQL乱码全面解析

热门文章

  1. 学妹居然叫我帮她P证件照自拍,结果发现.........
  2. [转贴]智者的四句箴言
  3. java正则10位数字_10个你应该知道的Java正则表达式的例子
  4. 前端设计 响应式设计_如何响应式设计
  5. python打开csv文件乱码_python3写入csv乱码怎么解决
  6. python的matplotlib安装包_matplotlib下载
  7. 如何短视频App功能
  8. 《推荐系统开发实战》之推荐系统的灵魂伴侣-数据挖掘
  9. 管理员已阻止你运行,导致无法安装AutoCAD、3dsMax、Revit、Maya等
  10. 使用PHP 5.0创建图形的巧妙方法(一)