我们在预训练word vector或其他预训练任务时,需要大量的语料数据,Wikipedia开放了英文语料,大约11G:wiki英文语料下载链接

该语料库是.bz2格式,但是不能直接解压,需要使用工具处理,我们介绍两种常用的处理工具,gensim和wikiextractor。

Gensim

gensim提供了处理工具,但是只能够获得文章的词列表,丢失了段落句子以及标点符号。


from gensim.corpora import WikiCorpusa = 'enwiki-latest-pages-articles.xml.bz2'
wiki = WikiCorpus(a, lemmatize=False, dictionary={})for text in wiki.get_texts():for word in text:pass

Wikiextractor

想要获得原文,可以通过wikiextractor工具。

git clone https://github.com/attardi/wikiextractor
python wikiextractor/WikiExtractor.py INPUT_FILE -o OUTPUT_PATH --json

所有文章会被解压到指定的OUTPUT_PATH文件夹中,可以通过--json指定输出为json格式,也可以参考github设置其他格式。对解压好的文章,可以通过NLTK处理分句以及分词。

参考

https://github.com/EternalFeather/Word2Vec-on-Wikipedia-Corpus

https://github.com/attardi/wikiextractor

https://radimrehurek.com/gensim/corpora/wikicorpus.html

https://blog.csdn.net/lixintong1992/article/details/50387007

Wikipedia corpus英文语料处理,获得原文相关推荐

  1. 人工智能框架实战精讲:Keras项目-英文语料的DNN、Word2Vec、CNN、LSTM文本分类实战与调参优化

    Keras项目-英文语料的文本分类实战 一.机器学习模型 1.1 数据简介 1.2 数据读取与预处理 1.3 数据切分与逻辑回归模型构建 二.全连接神经网络模型 2.1 模型训练 2.2 模型结果展示 ...

  2. python-----简单英文语料预处理

    英文语料预处理的主要步骤: (此步骤针对的是txt格式的文件,如果文件为其他格式,需要先将其转换为txt文件再进行操作) 1.去除非英文字符的字符,例如符号.数字.中文等 2.去停用词 具体实现(py ...

  3. [转载] wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5

    参考链接: 使用Python从Wikipedia的信息框中获取文本 英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wi ...

  4. 计算机发展简史 文献,测控技术与仪器专业微型计算机发展简史大学毕业论文英文文献翻译及原文.doc...

    毕 业 设 计(论文) 外 文 文 献 翻 译 文献.资料中文题目:微型计算机发展简史 文献.资料英文题目:Progress in Computers 文献.资料来源: 文献.资料发表(出版)日期: ...

  5. 利用Gensim在英文Wikipedia训练词向量

    最近在SemEval 2010 Task 8上做关系分类的实验,主要是实现了一下这篇论文的模型:A neural network framework for relation extraction: ...

  6. 利用Gensim训练关于英文维基百科的Word2Vec模型(Training Word2Vec Model on English Wikipedia by Gensim)

    Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...

  7. (一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库

    利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体. 目录 第一步 下载语料库 第二步 将下载好的bz2文件转换为 ...

  8. 【python gensim使用】word2vec词向量处理中文语料

    word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...

  9. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

最新文章

  1. Pandas入门教程
  2. elasticsearch使用指南之Elasticsearch Document Index API详解、原理与示例
  3. Android SharedPreferences存储map的方法
  4. 如何在python中显示电脑中的图片-如何在python界面显示图片
  5. WF,WPF,Silverlight的DependencyProperty 附加属性
  6. 2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记
  7. No transaction aspect-managed TransactionStatus in scope
  8. SQLServer2k安全配置
  9. 关于spark的mllib学习总结(Java版)
  10. mysql strcmp s1 s2_mysql常用函数
  11. 词云图 - WorldCloud - Python代码实现
  12. 【云服务】浅析XaaS
  13. 浅谈-LINUX 操作系统启动过程
  14. 怎么证明自己会python_1024程序员节,请用一句话证明你是一个程序员!
  15. UnixC的第十三天
  16. 基于RSSI及KNN算法的WiFi室内定位实现
  17. java之NIO简介
  18. 中国现代文学专题形考2022
  19. idea导入myeclipse项目以后报错,配置文件灰色以及 com.alipay.demo.trade.Main test_trade_precreate 严重: 系统异常,预下单状态未知
  20. Windows10解决耳机被识别为扬声器问题

热门文章

  1. Python实现LSTM股票预测阶段心得笔记
  2. Xshell连接Linux虚拟机出现 可以ping通,但无法ssh连接的情况
  3. 国仁网络资讯:视频号直播间添加购物商品详细流程步骤;直播必备干货。
  4. 刚2021年,Linux之父就“炮轰”了英特尔,称“他们都在偷工减料”!
  5. vue-cli中webpack配置之webpack.prod.conf.js
  6. npm、nrm两种方式查看源和切换镜像
  7. [开源教程] STC单片机下载固件失败案例
  8. 【转】从一个实例详解敏捷测试的最佳实践
  9. DVD刻录初学者必读
  10. 可视化神器Plotly玩转股票图