Word2vec训练中文维基百科

1.取得中文维基百科数据，本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2

也可以前往维基百科数据获取下载最新的数据。（请挑选以pages-articles.xml.bz2为结尾的文档）

2.利用wiki_to_txt.py将xml文档转换成txt文档

# coding=utf-8
## 后台运行 python3.5 wiki_to_txt.py zhwiki-20180320-pages-articles-multistream.xml.bz2
import logging ##记录数据日志
import sys ##sys模块提供了一系列有关Python运行环境的变量和函数from gensim.corpora import WikiCorpusdef main():if len(sys.argv) !=2: ##获取当前正在执行的命令行参数的参数列表(list)print("Usage:Python3" + sys.argv[0] + "wiki_data_path") ##sys.argv[0]是当前程序名exit()logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)wiki_corpus = WikiCorpus(sys.argv[1],dictionary={})texts_num = 0with open("wiki_texts.txt",'w',encoding='utf-8') as output:for text in wiki_corpus.get_texts():output.write(''.join(text) + '\n')texts_num += 1if texts_num % 10000 ==0:logging.info("已处理 %d 篇文章" % texts_num)if __name__ == "__main__":main()

后台运行：python3.5 wiki_to_txt.py zhwiki-20180320-pages-articles-multistream.xml.bz2

3.繁转简

利用opencc工具进行转换

在ubuntu上安装opencc：sudo apt-get install opencc

利用命令行：

opencc -i wiki_texts.txt -o wiki_zh_tw.txt -c zht2zhs.ini

4.利用jieba分词除去停用词

pip3 install jieba

利用segment.py

# coding=utf-8import jieba
import loggingdef main():logging.basicConfig(format='%(asctime)s : %(levelname)s :%(message)s', level=logging.INFO)#jieba custom settingjieba.set_dictionary('jieba_dict/dict.txt.big')#load stopwords setstopword_set = set()with open('jieba_dict/stopwords.txt', 'r', encoding='utf-8') as stopwords:for stopword in stopwords:stopword_set.add(stopword.strip('\n'))output = open('wiki_seg.txt', 'w',encoding='utf-8')with open('wiki_zh_tw.txt','r',encoding='utf-8')as content:for texts_num,line in enumerate(content):line = line.strip('\n')words = jieba.cut(line, cut_all=False)for word in words:if word not in stopword_set:output.write(word + '')output.write('\n')if (texts_num +1) % 10000 ==0:logging.info("已完成 %d 行的断词" % (texts_num + 1))output.close()
if __name__ == '__main__':main()

通过命令行：python3 segment.py

5.使用gensim库中的word2vec进行训练

pip3 install gensim

利用train.py训练模型

# coding=utf-8import logging
from gensim.models import word2vecdef main():logging.basicConfig(format('%(asctimes)s : %(levelname)s : %(message)s',level=logging.INFO))sentences = word2vec.LineSentence("wiki_seg.txt")model = word2vec.Word2Vec(sentences,size=250)#保存模型model.save("word2vec.model")#模型读取方式# model = word2vec.Word2vec.load("your_model_name")if __name__ == '__main__':main()

命令行运行:python3 train.py

Word2vec训练中文维基百科相关推荐

Windows下基于python3使用word2vec训练中文维基百科语料资料汇总
Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...
Windows下基于python3使用word2vec训练中文维基百科语料(一)
在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...
Windows下基于python3使用word2vec训练中文维基百科语料(三)
对前两篇获取到的词向量模型进行使用: 代码如下: 1 import gensim 2 model = gensim.models.Word2Vec.load('wiki.zh.text.model') ...
把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...
NLP之word2vec：利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量目录输出结果设计思路 1.Wikipedia Text语料来源 2.维基 ...
使用中文维基百科语料库训练一个word2vec模型
本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...
使用中文维基百科语料库训练一个word2vec模型 12.1
转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...
使用中文维基百科训练word2vec模型的最新方法！
网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...
使用中文维基百科训练word2vec模型
一.下载原始数据数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...

Word2vec训练中文维基百科

Word2vec训练中文维基百科相关推荐

最新文章

热门文章