import jieba as jb
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocumentshixi = pd.read_table('shixi.txt')
print(shixi)
s = '哈哈哈哈大师赛的小康康'
w = jb.cut(s)
jdlist = list()
for i in range(1000):w = jb.cut(shixi.content[i])jdlist.append(TaggedDocument(' '.join(w).split(' '),[i]))#print(jdlist)
model = Doc2Vec(jdlist,dm=1, dm_concat=1, size=100, window=2, hs=0, min_count=2, workers=8)
print(model.docvecs.most_similar(63)[0][0])

通过genism的库,使用doc2vec看看基于文档的初步分类效果怎么样。

事实证明结果不太行,会把 嵌入式的岗位,匹配到 销售等。

需要进一步对文档分词进行过滤和处理。

【NLP系列1】基于Doc2Vec的文本分类相关推荐

  1. 【NLP】基于机器学习的文本分类!

    作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右.垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间.大家对此深恶痛绝,于是识别垃圾 ...

  2. NLP(新闻文本分类)——基于机器学习的文本分类

    文本表示方法 在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测.同样的在计算机视觉中可以将图片的像素看作特征, ...

  3. Task03——零基础入门NLP - 基于机器学习的文本分类

    学习目标 学会TF-IDF使用原理 使用sklearn的机器学习模型完成文本分类 文本表示方法 one-hot bag of words N-grams TF-IDF 基于机器学习的文本分类代码

  4. 基于ERNIR3.0文本分类:(KUAKE-QIC)意图识别多分类(单标签)

    PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例[多分类(单标签)] 0.前言:文本分类任务介绍 文本分类任务是自然语言处理中最常见的任务,文本分类任 ...

  5. PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】

    相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...

  6. 基于机器学习的文本分类!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网 ...

  7. 基于神经网络的文本分类(基于Pytorch实现)

    <Convolutional Neural Networks for Sentence Classification> 作者:Yoon Kim 单位:New York University ...

  8. NLP-Beginner:自然语言处理入门练习----task 1基于机器学习的文本分类

    任务一:基于机器学习的文本分类 任务传送门 项目是在github上的,数据集需要在kaggle上下载,稍微有些麻烦. wang盘:http://链接:https://pan.baidu.com/s/1 ...

  9. 【nlp】天池学习赛-新闻文本分类-深度学习1

    目录 1.FastText 1.1.FastText网络结构 1.2.基于fastText的文本分类 2.word2vec训练词向量及使用 2.1.用jieba对语料进行分词处理 2.2.用LineS ...

最新文章

  1. 小程序真机调试访问不了接口_小程序入门
  2. 解決scott 用戶登錄錯誤: invalid username/password;logon denied
  3. PWM波形的simulink仿真
  4. WPF获取某控件的位置,也就是偏移量
  5. java读取文件并显示_JAVA读取本地文件并显示到页面中
  6. 【BZOJ4543】【POI2014】Hotel加强版(长链剖分)
  7. Gson的fromJson()方法
  8. web developer tips (45):如何改变动态数据文件夹的位置
  9. CentOS7 基于http服务搭建本地yum仓库
  10. Linux nm命令
  11. 二维码的原理竟如此简单,第一次有人说的这么明白
  12. 解决react native打包apk文件安装好之后进入应用闪退的问题
  13. redhat oracle环境变量配置文件,Redhat7.2(7.1)下oracle8.17的安装手册-数据库专栏,ORACLE...
  14. 中兴服务器 bmc 登不上
  15. php+ajax上传文件
  16. Java学习笔记----------集合Set
  17. A newer version of WinPcap (internal version 10.2.0.5002) is already installed on this machine 问题解决
  18. 【LeetCode04】最接近的三数之和
  19. 【Net】全球十大搜索引擎,你听过几个?
  20. 创建Vue-Cli脚手架

热门文章

  1. PMP备考建议这些点一定要记住
  2. transient解析
  3. scanf输入参数详解
  4. 高级工程师评审:高级工程师有哪些专业?高级工程师职称专业分类
  5. Cassandra教程(6)---- Snitch
  6. 推荐WPS Office 个人版
  7. ssm+JSP计算机毕业设计自助洗车系统01923【源码、程序、数据库、部署】
  8. HOT!关于月饼你必须了解的事!
  9. 日语php 开发,涉及日语的PHP正则表达式
  10. 与腾讯、网易逐梦云游戏,三七互娱还少张王牌