【NLP系列1】基于Doc2Vec的文本分类
import jieba as jb
import numpy as np
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocumentshixi = pd.read_table('shixi.txt')
print(shixi)
s = '哈哈哈哈大师赛的小康康'
w = jb.cut(s)
jdlist = list()
for i in range(1000):w = jb.cut(shixi.content[i])jdlist.append(TaggedDocument(' '.join(w).split(' '),[i]))#print(jdlist)
model = Doc2Vec(jdlist,dm=1, dm_concat=1, size=100, window=2, hs=0, min_count=2, workers=8)
print(model.docvecs.most_similar(63)[0][0])
通过genism的库,使用doc2vec看看基于文档的初步分类效果怎么样。
事实证明结果不太行,会把 嵌入式的岗位,匹配到 销售等。
需要进一步对文档分词进行过滤和处理。
【NLP系列1】基于Doc2Vec的文本分类相关推荐
- 【NLP】基于机器学习的文本分类!
作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右.垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间.大家对此深恶痛绝,于是识别垃圾 ...
- NLP(新闻文本分类)——基于机器学习的文本分类
文本表示方法 在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测.同样的在计算机视觉中可以将图片的像素看作特征, ...
- Task03——零基础入门NLP - 基于机器学习的文本分类
学习目标 学会TF-IDF使用原理 使用sklearn的机器学习模型完成文本分类 文本表示方法 one-hot bag of words N-grams TF-IDF 基于机器学习的文本分类代码
- 基于ERNIR3.0文本分类:(KUAKE-QIC)意图识别多分类(单标签)
PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例[多分类(单标签)] 0.前言:文本分类任务介绍 文本分类任务是自然语言处理中最常见的任务,文本分类任 ...
- PaddleNLP基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】
相关项目链接: Paddlenlp之UIE模型实战实体抽取任务[打车数据.快递单] Paddlenlp之UIE分类模型[以情感倾向分析新闻分类为例]含智能标注方案) 应用实践:分类模型大集成者[Pad ...
- 基于机器学习的文本分类!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:李露,西北工业大学,Datawhale优秀学习者 据不完全统计,网 ...
- 基于神经网络的文本分类(基于Pytorch实现)
<Convolutional Neural Networks for Sentence Classification> 作者:Yoon Kim 单位:New York University ...
- NLP-Beginner:自然语言处理入门练习----task 1基于机器学习的文本分类
任务一:基于机器学习的文本分类 任务传送门 项目是在github上的,数据集需要在kaggle上下载,稍微有些麻烦. wang盘:http://链接:https://pan.baidu.com/s/1 ...
- 【nlp】天池学习赛-新闻文本分类-深度学习1
目录 1.FastText 1.1.FastText网络结构 1.2.基于fastText的文本分类 2.word2vec训练词向量及使用 2.1.用jieba对语料进行分词处理 2.2.用LineS ...
最新文章
- 小程序真机调试访问不了接口_小程序入门
- 解決scott 用戶登錄錯誤: invalid username/password;logon denied
- PWM波形的simulink仿真
- WPF获取某控件的位置,也就是偏移量
- java读取文件并显示_JAVA读取本地文件并显示到页面中
- 【BZOJ4543】【POI2014】Hotel加强版(长链剖分)
- Gson的fromJson()方法
- web developer tips (45):如何改变动态数据文件夹的位置
- CentOS7 基于http服务搭建本地yum仓库
- Linux nm命令
- 二维码的原理竟如此简单,第一次有人说的这么明白
- 解决react native打包apk文件安装好之后进入应用闪退的问题
- redhat oracle环境变量配置文件,Redhat7.2(7.1)下oracle8.17的安装手册-数据库专栏,ORACLE...
- 中兴服务器 bmc 登不上
- php+ajax上传文件
- Java学习笔记----------集合Set
- A newer version of WinPcap (internal version 10.2.0.5002) is already installed on this machine 问题解决
- 【LeetCode04】最接近的三数之和
- 【Net】全球十大搜索引擎,你听过几个?
- 创建Vue-Cli脚手架