1. 安装依赖包

numpy:用来计算多维数组的包,基本操作可看:https://blog.csdn.net/cxmscb/article/details/54583415

scipy:用于数据统计,有多种常用的数据统计函数,也包括连续和离散两种随机变量,这个包要在安装了numpy之后才能安装

gensim:gensim是一个python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,这个包要在安装了scipy之后才能安装

下载中文词集

下载地址:中文词集数据的下载地址

处理中文词集(xml)转化为txt

from gensim.corpora import WikiCorpus# 将训练集转化(xml)为txt
# 参数:wiki训练集存放的路径,txt存放的路径
def translateTheText(xml_path,txt_path):path_to_wiki_dump = xml_pathwiki_corpus = WikiCorpus(path_to_wiki_dump, dictionary={})num = 0with open(txt_path, 'w', encoding='utf-8') as output:for text in wiki_corpus.get_texts():  # get_texts() 将 wiki的一篇文章转为textd的一行output.write(' '.join(text) + '\n')num += 1if num % 10000 == 0 and num != 0:print('已处理 %d 篇文章'%(num))print('wiki词集转化完毕')

如果有UserWarning:detected Windows; aliasing chunkize to chunkize_serial
warnings.warn(“detected Windows; aliasing chunkize to chunkize_serial”)
警告
可以再导入gensim包之前写入下面的代码:

import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

这个时间有点长,可以耐心等一下,看个电视局啥的。。。。。。。

转化完成之后可以看到有一个文件:

将txt文档中的繁体转化为简体

下载opencc工具:opencc下载地址

解压调用:进入到刚才wiki_text.txt的文件目录下:
进入cmd调用命令:

(opencc的路径)\opencc.exe -i (txt文件的路径)\wiki_text.txt -o (txt文件的路径)\wiki_text2.txt -c (opencc的路径)\t2s.json
一小会就好了

将txt文档分词

import jieba# 将txt文本中的句子分词
# 参数:txt路径,分词之后的存放文本路径
def getCutWords(txt_path, seg_txt):stopword_set = set()output = open(seg_txt, 'w', encoding='utf-8')with open(txt_path, 'r', encoding='utf-8') as content:for texts_num, line in enumerate(content):  # enumerate 给 line前加序号line = line.strip('\n')words = jieba.cut(line, cut_all=False)for word in words:if word not in stopword_set:output.write(word + ' ')output.write('\n')if (texts_num + 1) % 10000 == 0:print("已完成 %d 行的分词"%(texts_num + 1))print('文本分词完毕')output.close()

这个时间也有点长,耐心等一下,可以看看直播。。。。。。。
弄好了之后就会有一个wiki_seg.txt文档了

训练模型

from gensim.models import word2vecdef getWordsNumber(seg_path, model_path):sentences = word2vec.LineSentence(seg_path)model = word2vec.Word2Vec(sentences, size=250, min_count=5)  # size 用来设置神经网络的层数model.save(model_path)

这个时间也有点久,稍稍等待
完成后,就会出现三个文件

到此模型训练完毕

训练WIKI中文模型相关推荐

  1. python word2vector训练wiki中文文本语料

    前两篇文章对wiki中文语料进行下载(wiki中文文本语料下载并处理 ubuntu + python2.7)和分词(python wiki中文语料分词),本篇使用word2vector训练词向量,训练 ...

  2. gensim训练wiki中文词向量

    尝试用gensim来做word2vec,之后还会用glove和fasttext进行比较 获得wiki语料 前往维基百科:资料库下载, 点击中文版的下载,下载这份大的文件 同时安装好需要的gensim包 ...

  3. word2vec训练中文模型—wiki百科中文库

    ps:整理电脑文档,将之前的做的word2vec训练的中文模型实验记录做下poko,欢迎交流学习. 1.准备数据与预处理 注意事项:请将内存最好选择8g及以上的电脑,否则可能卡顿,并在开始时候安装好p ...

  4. wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

    首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...

  5. wiki百科词向量训练资料及其模型

    wiki百科词向量训练模型 一.结果预览 二.作用 训练过程 (一)下载问题解决 下载方式一: 下载方式二: 下载方式三: (二)训练过程的问题 一.结果预览 目标为求取python相关的内容为: 从 ...

  6. wiki中文语料的word2vec模型构建

    一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

  7. 基于深度学习的Wiki中文语料词word2vec向量模型

    资源下载地址:https://download.csdn.net/download/sheziqiong/85820613 资源下载地址:https://download.csdn.net/downl ...

  8. 利用Python构建Wiki中文语料词向量模型

    利用Python构建Wiki中文语料词向量模型试验 完整代码下载地址:利用Python构建Wiki中文语料词向量模型 本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型 ...

  9. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

最新文章

  1. 一份关于kaggle特征构建技巧和心得
  2. Wire:Linux开源聊天应用
  3. python将图片转动漫_如何把照片变成手绘动漫化?
  4. Splay(单点修改+查询)
  5. SQLite3中的数据类型
  6. Spring(4)--- hello world实例
  7. sql server调试_使用SQL Server扩展事件来调试应用程序
  8. Spring中获取request的方法及其线程安全性分析
  9. python编程资料包_强力推荐,非常全的Python编程400集学习资料(今日限免)
  10. 文本数据标注工具doccano【介绍最详细的一遍文章】
  11. ironpkg下载地址
  12. 使用JsonCpp编写JSON封装程序的方法
  13. 中科院-杨力祥视频教程 05课程
  14. 每个设计师都应该了解的IOS编年史
  15. spacedesk安卓_【图吧小白教程】安卓平板改数位板
  16. web border属性
  17. win7设置文件夹共享 win7共享文件夹
  18. 苹果iCloud服务疑遭中国黑客攻击
  19. 如何将PDF文件转换成Excel呢?
  20. Springboot毕设项目华阳大众汽车售卖系统v9f90(java+VUE+Mybatis+Maven+Mysql)

热门文章

  1. iOS小技能:Xcode13的使用技巧
  2. linux lite改中文,Linux Lite 发布 4.0 版本
  3. Actionscript,AS3,MXML,Flex,Flex Builder,Flash Builder,Flash,AIR,Flash Player之关系转
  4. java软件自学_Java编程自学软件下载
  5. 【PyCharm】Couldn‘t refresh skeletons for remote interpreter: Can‘t get remote credentials for server
  6. 广西行政村数据shp_全国省市县乡行政区划数据(含shp文件)
  7. 口腔诊所需不需要网络顾问计算机,牙科口腔诊所网络咨询岗位职责.doc
  8. 领导想提拔你,这点最真实,可别犯傻不当回事!
  9. 寂静之地百度云在线观看迅雷下载A Quiet Place高清BT下载
  10. Windows API一日一练 47 CreateSemaphore和ReleaseSemaphore函数