word2vec-gensim介绍

gensim 是word2vec的python实现。
word2vec是google的一个开源工具,能够计算出词与词之间的距离。
word2vec即是word to vector的缩写,一个word to vector的处理技术或模型通常被称为“Word Representation”或“Word Embedding”
word2vec使用深度学习的方式进行训练得出词向量。其相关原理可以直接搜索关键字“word2vec”了解。

小实验介绍

得到的这个词向量在NLP 相关的工作中大有可为,比如聚类、找同义词、词性分析等等。下面我们就来用它处理一些中文语料来测验一下它的功能。

英文语料有一些很不错的已经训练好的模型,可以直接用。但中文方面我并没有找到合适的,于是自己下载了近100M的语料(主要是古诗文和金庸,古龙的小说),语料偏古文,因为我最终要用它来根据一句诗生成一句近似的新诗。
比如input:“相期乃不浅” ,它会得到output:“相期乃未浅”。
数据集虽小,但最终效果并不是很差(取决于输入的诗句),所以拿出来晒晒。

代码

代码很简单,就三个函数:
1. txt2unicode() 将所有语料变成一个单行组成的list(即line_list),文字全部转为unicode;
2. uni_line_list2gen_model()将上一步生成的line_list用来生成一个gensim model;
3. replace_word()使用gensim model来生成新诗。

word2vec_gensim 中文处理 小试牛刀相关推荐

  1. TechDay实录|摘取皇冠上的明珠,中文NLP的不二选择——PaddlePaddle

    NLP (Natural Language Processing)自然语言处理是人工智能的一个子领域,它是能够让人类与智能机器进行沟通交流的重要技术手段,同时也是人工智能中最为困难的问题之一.因此,N ...

  2. 词云可视化:四行Python代码轻松上手到精通

    词云可视化:四行Python代码轻松上手到精通 文章目录 词云可视化:四行Python代码轻松上手到精通 本课概要 关于本课程 `粉丝答疑交流QQ群:953712961` `微信赞赏码` 不需要写代码 ...

  3. .NET DLR 上的IronScheme 语言互操作IronScheme控制台输入中文的问题

    前言 一直以来对Lisp语言怀有很崇敬的心里,<黑客与画家>对Lisp更是推崇备至,虽然看了不少有关Lisp的介绍但都没有机会去写段程序试试,就像我对C++一样,多少有点敬畏.这个周末花了 ...

  4. 使用gensim训练中文语料word2vec

    使用gensim训练中文语料word2vec 目录 使用gensim训练中文语料word2vec 1.项目目录结构 1.1 文件说明: 1.2 项目下载地址 2.使用jieba中文切词工具进行切词 2 ...

  5. Nornir小试牛刀

    一.Nornir简介 Nornir是用python编写的自动化框架,可与python一起使用.相比另一个自动化大杀器ansible来讲,nornir操作更加的灵活,不受格式限制,于python结合可灵 ...

  6. python gensim word2vec_gensim word2vec

    之前写过<中英文维基百科语料上的Word2Vec实验>,近期有不少同学在这篇文章下留言提问,加上最近一些工作也与Word2Vec相关,于是又做了一些功课,包括重新过了一遍Word2Vec的 ...

  7. linux/docker个人服务器项目中文变问号??,时间差8小时问题解决方法,最新,最有效

    前段时间在腾讯云上面买了一台个人服务器,在搭建好web项目的时候,在项目中录入中文,全部变成了问号,时间也错了,百思不得其解,后来我尝试着修改docker编码,修改系统语言,都无法改变.后来我把项目从 ...

  8. python3+ 解决写入中文乱码的问题

    case1: json格式 import json data = [{'id': ' 002', 'name': ' 小明', 'type': ' Grass', 'typeTwo': ' Poiso ...

  9. Visual Studio 中文显示乱码问题

    今天在码云上Fork了一个开源工程,编译环境是Visual Studio C++, 由于自己本地平台主要是进行Linux开发,平时文档编码格式都是utf-8的,编译没问题,但运行起来就是乱码,就像下图 ...

最新文章

  1. CHUCK手把手带你搞定OPENSTACK
  2. 移动端网站建设——一如既往地简洁大方
  3. pmbook 知识领域 第六版_PMP项目管理10大知识领域脑图
  4. Java 接口和抽象类的区别
  5. C++ static关键字
  6. android 读取txt转为utf-8乱码,彻底解决android读取txt乱码终极方案
  7. Android中如何获取应用版本号
  8. C# winform 跨线程修改界面
  9. 使用gc、objgraph干掉python内存泄露与循环引用!
  10. python的with用法
  11. python 人脸相似度计算
  12. 小程序如何生成海报分享朋友圈
  13. c51单片机汇编语言1秒延时,51单片机汇编延时程序算法详解
  14. ubuntu搭建vpn步骤
  15. VSS2005安装指南
  16. 机器学习基础——分类算法之决策树、随机森林、Titanic乘客生存分类
  17. Unity3D 自动切割动画
  18. 你该用什么的美剧学英语?
  19. MiniOA最新下载
  20. VS2019怎么没有C++的窗体应用模板_衡州销售支架z型钢价格-怎么样_浙江铭凯

热门文章

  1. @Conditional注解的详解和应用
  2. 网易游戏研发工程师笔试题----赛马
  3. submine改编码_字幕软件Aegisub ASS代码使用指南
  4. 【“网络电缆被拔出”问题解决方法】
  5. Source insight 宏的使用
  6. Iterated Kalman Filter(IKF/IEKF)总结
  7. 魔术sql_魔术不会成为独角兽,这需要付出艰辛的努力
  8. 嵌入式设计与开发项目-数码管静态显示程序设计
  9. Driver residency in WDDM 2.0(MSDN翻译)
  10. PCIe扫盲——基地址寄存器(BAR)详解