Wikipedia corpus英文语料处理，获得原文

2024-05-16 15:20:26

我们在预训练word vector或其他预训练任务时，需要大量的语料数据，Wikipedia开放了英文语料，大约11G：wiki英文语料下载链接

该语料库是.bz2格式，但是不能直接解压，需要使用工具处理，我们介绍两种常用的处理工具，gensim和wikiextractor。

Gensim

gensim提供了处理工具，但是只能够获得文章的词列表，丢失了段落句子以及标点符号。


from gensim.corpora import WikiCorpusa = 'enwiki-latest-pages-articles.xml.bz2'
wiki = WikiCorpus(a, lemmatize=False, dictionary={})for text in wiki.get_texts():for word in text:pass

Wikiextractor

想要获得原文，可以通过wikiextractor工具。

git clone https://github.com/attardi/wikiextractor
python wikiextractor/WikiExtractor.py INPUT_FILE -o OUTPUT_PATH --json

所有文章会被解压到指定的OUTPUT_PATH文件夹中，可以通过--json指定输出为json格式，也可以参考github设置其他格式。对解压好的文章，可以通过NLTK处理分句以及分词。

参考

https://github.com/EternalFeather/Word2Vec-on-Wikipedia-Corpus

https://github.com/attardi/wikiextractor

https://radimrehurek.com/gensim/corpora/wikicorpus.html

https://blog.csdn.net/lixintong1992/article/details/50387007

Wikipedia corpus英文语料处理，获得原文相关推荐

人工智能框架实战精讲：Keras项目-英文语料的DNN、Word2Vec、CNN、LSTM文本分类实战与调参优化
Keras项目-英文语料的文本分类实战一.机器学习模型 1.1 数据简介 1.2 数据读取与预处理 1.3 数据切分与逻辑回归模型构建二.全连接神经网络模型 2.1 模型训练 2.2 模型结果展示 ...
python-----简单英文语料预处理
英文语料预处理的主要步骤: (此步骤针对的是txt格式的文件,如果文件为其他格式,需要先将其转换为txt文件再进行操作) 1.去除非英文字符的字符,例如符号.数字.中文等 2.去停用词具体实现(py ...
[转载] wikipedia 维基百科语料获取与提取处理 by python3.5
参考链接: 使用Python从Wikipedia的信息框中获取文本英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wi ...
计算机发展简史文献,测控技术与仪器专业微型计算机发展简史大学毕业论文英文文献翻译及原文.doc...
毕业设计(论文) 外文文献翻译文献.资料中文题目:微型计算机发展简史文献.资料英文题目:Progress in Computers 文献.资料来源: 文献.资料发表(出版)日期: ...
利用Gensim在英文Wikipedia训练词向量
最近在SemEval 2010 Task 8上做关系分类的实验,主要是实现了一下这篇论文的模型:A neural network framework for relation extraction: ...
利用Gensim训练关于英文维基百科的Word2Vec模型（Training Word2Vec Model on English Wikipedia by Gensim）
Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...
（一）利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库
利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体. 目录第一步下载语料库第二步将下载好的bz2文件转换为 ...
【python gensim使用】word2vec词向量处理中文语料
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...
【用户行为分析】用wiki百科中文语料训练word2vec模型
本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845 前言最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

最新文章

热门文章