小白如何快速训练词向量

但凡谈及自然语言处理，我们都会想到词向量，那么怎么快速地获得词向量呢？最简单的方法就是word2vec。本文不深究word2vec的原理，网上很多细致深入的解读，大家可以自行搜索。今天总结一下如何快速训练自己的词向量，作为参考个人的手册。

1、语料

丰富、高质量的语料是词向量成功第一步。

前两天学到一个名词，叫自监督学习，word2vec就是其中一种。自己监督自己，很容受到噪声的干扰，如果数据不干净，结果也会谬以千里。

word2vec虽然不是统计算法，但是训练过程中很大程度上在理解上下文，在理解共现关系。丰富的语料，才能保证对词语正确的理解。很多低频词由于训练不足，词向量基本是随机初始化的，导致在计算词语top-n相似词语的时候出现一些匪夷所思的噪声。

所以请一定多获取数据，多思考怎么把数据过滤得更干净。

2、分词

词向量，词向量，故名思义，首先要有词语，使用分词工具把语料分割为词语序列。

中文分词哪家强？常用的有jieba、ltp（哈工大）、thulac（清华）…这几种分词工具各有优劣。不过对于具体领域的任务，我们通常通过加载额外的领域词典，来对分词工具进行补充。这里可能还涉及领域内的新词发现，不展开了。

如果你觉得这些工具都是垃圾，可以自行训练分词模型，常用的有动态规划，隐马尔可夫，以及深度学习分词算法。

3、构建词向量模型

gensim正式登场，其实可以直接使用word2vec库，但是个人觉得gensim库功能更全面，推荐使用。

读取语料，如果你的数据很少，那就简单，把数据全部读到内存中。存到一个二位数组里，[[w1,w2,…], …], 里面的数组表述文本，外面表示所有文本的集合。但是当你的语料很大时，建议逐步加载。官方建议定义一个数据读取的类：

class MyCorpus(object):"""An interator that yields sentences (lists of str)."""def __init__(self, corpus_file, stopwords_dict=None):self.corpus_file = corpus_fileself.stopwords_dict = stopwords_dictdef __iter__(self):count = 0for line in open(self.corpus_file):# assume there's one document per line, tokens separated by whitespaceif self.stopwords_dict is not None:# 过滤停用词line_seg = line.split(" ")line_seg = [w for w in line_seg if w not in stopwords_dict]line = " ".join(line_seg)count += 1if count % 10000 == 0:print(f"load {count} lines ...")yield utils.simple_preprocess(line)

也可以使用gensim的函数：gensim.models.word2vec.PathLineSentences。

模型训练，

sentences = MyCorpus(input_file, stopwords_dict=stopwords_dict)
gensim.models.Word2Vec(sentences, size=vec_size, window=5, min_count=5, sample=1e-5, workers=8, sg=0)
model.wv.save_word2vec_format(output_file, binary=False)

其中size表示词向量的维度；window表示生成训练数据的窗口；min_count表示最小的词频，小于最小词频的词语会被直接过滤掉，不会参与模型训练；sample是正样本降采样的概率大小，来降低高频词的训练次数，避免过度拟合；worker多线程数；sg选训练模式，1表示使用skip-gram（通过当前词语预测上下文词语），0表示使用cbow（通过上下文词语预测当前词语）。

最终通过model.wv.save_word2vec_format把模型保存下来。

4、应用

词向量的应用，最直观的就是计算近义词了，比如你输入“如花”，可能召回“似玉”。

加载模型

 model = gensim.models.KeyedVectors.load_word2vec_format(output_file)

计算top-n相似词

topn_simi_words = model.most_similar("如花", topn=K)

除计算近义词，比较炫酷的应用是通过词向量减法来获取一些潜在关系，比如王子-公主=国王-王后，这也是当年词向量出来后，给的demo，让人觉得眼前一亮。此外，现在训练深度学习模型，通常喜欢预训练词向量，克服标注数据不足的问题。

词向量让我们能够从几何的角度理解语义，并可视化，是一个从抽象到具体的炫酷过程。虽然咱们只是观众，忍不住要欢呼，牛逼！词向量很容易推广到其他类型的iterm，只要能够能到有意义的iterm序列，就能得到iterm向量。最近有野心者觉得一切皆可embedding，一切可以向量化，你觉得可能么？