1.选择语料库

这个是我项目私人的语料库

具体操作方法就是把所有要处理的文字放到一个文件里,标点符号什么的可以等在分词的时候逐行处理,反正要逐行分词~

如图:

只能窥探一角~

2.分词处理

分词工具我选择的是jieba

项目地址:https://github.com/fxsjy/jieba

这上面的文档齐全,足够

1)安装jieba:

看到网站上“全自动”安装几个大字了吧~安装好之后测试效果:

2)自定义词典

参考官方解释:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt

我的语料库是体育相关的,所以很多词汇jieba里面是没有的,所以要添加自定义词典,把新词加进去。

看他的官方解释,如果你想让你自定义的词必须一定要被分出来,可以把最后一列的值调的很大,例如2000

我的词典如下:

添加了一些自定义的词

3)编写分词代码

逐行进行分词,并且处理标点符号以及停用词等。

代码放上来:

可以看到我把分词结果保存到了一个txt文件当中。

注意:我这里写的有问题,不要把换行符处理掉, word2vec 把一个单词的前面和后面的k个单词作为context训练, 其中会自动把换行符替换成 ,也就是句子分隔符。

ok,前期工作处理结束,下面进行word2vec训练,轻松愉快~

word2vec需要去标点吗_word2vec训练词向量前期处理-中文分词等相关推荐

  1. word2vec需要去标点吗_word2vec学习笔记(应用篇)(金庸武侠)

    写在前面 本来是想写"实战篇"的,感觉实验语料库不大,就算是一个"应用篇"吧.选取了中文语料,主要简单介绍jieba分词的使用,以及Gemsim模块中Word2 ...

  2. 利用word2vec训练词向量

    利用word2vec训练词向量 这里的代码是在pycharm上运行的,文件列表如下: 一.数据预处理 我选用的数据集是新闻数据集一共有五千条新闻数据,一共有四个维度 数据集:https://pan.b ...

  3. word2vec预训练词向量+通俗理解word2vec+CountVectorizer+TfidfVectorizer+tf-idf公式及sklearn中TfidfVectorizer

    文章目录 文分类实(一) word2vec预训练词向量 2 数据集 3 数据预处理 4 预训练word2vec模型 canci 通俗理解word2vec 独热编码 word2vec (Continuo ...

  4. 自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

    自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧 NLP中进行词义消歧的一个非常方便且简单的方法就是训练词向量,通过词向量计算余弦值,来推断某个词在句子中的含义.python中的 ...

  5. word2vec训练词向量 python_使用Gensim word2vector训练词向量

    注意事项 Skip-Gram models:输入为单个词,输出目标为多个上下文单词: CBOW models:输入为多个上下文单词,输出目标为一个单词: 选择的训练word2vec的语料要和要使用词向 ...

  6. 如何在jieba分词中加自定义词典_Pyspark Word2Vec + jieba 训练词向量流程

    摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程. 工具:python,pyspark,jieba,pandas,numpy 数 ...

  7. 使用jieba对新闻标题进行切词,然后使用word2vec训练词向量及相似词计算的一个小例子

    这个主要是我想记下来方便以后用的时候好直接copy 这个例子就是跑流程的,里面的参数都是随便设的,效果不怎么好,但是流程总得跑通吧. 首先是停用词表见 https://blog.csdn.net/qq ...

  8. Python Word2vec训练医学短文本字/词向量实例实现,Word2vec训练字向量,Word2vec训练词向量,Word2vec训练保存与加载模型,Word2vec基础知识

    一.Word2vec概念 (1)Word2vec,是一群用来产生词向量的相关模型.这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本.网络以词表现,并且需猜测相邻位置的输入词,在word2 ...

  9. Python word2vec训练词向量,电子病历训练词向量,超简单训练电子病历的词向量,医学电子病历词向量预训练模型

    1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...

最新文章

  1. 2012年12月4期手机网页开发
  2. java web应用解决乱码问题
  3. 开源云计算mysql_云计算-开源数据库-SQL2
  4. 将普通路由器设置成微信连WiFi路由器的方法
  5. Java与ElasticSerach的整合
  6. ios 图片居中裁剪_使用居中图像iOS启动屏幕故事板
  7. 散列--数据结构与算法JavaScript描述(8)
  8. python多版本共存 ubuntu_Linux下python3与python3的多版本共存
  9. ANSIC标准定义的6种预定义宏
  10. 写写最近吧,关于读研、找工作
  11. 任意点 曲线距离_中级数学11-曲线函数
  12. -bash-退出_为什么这么多开发人员在找到工作之前就退出了。 请-不要。
  13. 直博和读完硕士再读博,在能力上的差距有多大?
  14. 【hortonworks/registry】AVRO 规范-Schema的定义和声明
  15. 观CSDN网站小Bug有感
  16. 图像处理之图像直方图
  17. AOP之基于Schema配置总结与案例
  18. 序列划分c语言,看懂了这些,你对缠论中的线段划分就基本掌握了!
  19. 安卓SDK——人脸识别
  20. spring事务管理配置

热门文章

  1. python课程开课吧怎么样-律所:我们更想招这样的人……
  2. python画折线图-手把手教你Python yLab的绘制折线图的画法
  3. python画条形图-用Matplotlib如何绘制条形图、直方图和散点图
  4. python软件下载3版本-python
  5. python程序-第一个Python程序——在屏幕上输出文本
  6. python爬虫怎么赚钱-如何利用python爬虫挣钱
  7. python读文件每一行-Python文件内容按行读取到列表中
  8. 为何python不好找工作-郑州为何python不好找工作?
  9. python抛硬币正面向上概率_Python-计算抛硬币出现连续10次正面朝上的概率的仿真实验...
  10. 大工计算机基础在线作业答案,大工1209《计算机应用基础》在线作业123.doc