字典特征提取和文本特征抽取

什么叫字典特征提取？

字典内容转化成计算机可以处理的数值

比如现在有个字典：

    data = [{"city":"北京", "tempeture":100, "age":11} , {"city":"上海", "tempeture":60,"age":12} ,{"city":"深圳", "tempeture":20,"age":13}]

分别是老三，老四，老五的个人基本信息
我们想提取出来这几个人的特征值，也就是给我用一个向量，表示某个独一无二的人的特征

我们先给出代码

#coding=utf-8
#特征提取
#首先导入转换器类
from sklearn.feature_extraction  import  DictVectorizerdef dec_demo():data = [{"city":"北京", "tempeture":100, "age":11} , {"city":"上海", "tempeture":60,"age":12} ,{"city":"深圳", "tempeture":20,"age":13} ]# 1. 实例化一个转换模块，不使用稀疏矩阵dt2= DictVectorizer( sparse=False )# 2. 调用fit_transform()result = dt.fit_transform(data)print(result)return Noneif __name__=="__main__":dec_demo()

结果是：

[[ 11.   0.   1.   0. 100.][ 12.   1.   0.   0.  60.][ 13.   0.   0.   1.  20.]]

特征模板是： [‘age’, ‘city=上海’, ‘city=北京’, ‘city=深圳’, ‘tempeture’]

这就叫做字典特征提取

那么以此类推，文本特征提取也是类似，依靠向量表示数

#coding=utf-8
from sklearn.feature_extraction.text import CountVectorizerdef context_Demo():'''文本特征抽取'''context=["life is hard,we need to envisage ourselves, life is"]# 实例化一个内容转换器CV =  CountVectorizer()# 调用fit_transformresult = CV.fit_transform(context)print(result.toarray())print("\n")print(CV.get_feature_names()) if  __name__ == "__main__":context_Demo()

结果是：

[[1 1 2 2 1 1 1 1]]['envisage', 'hard', 'is', 'life', 'need', 'ourselves', 'to', 'we']

请注意

不能设置sparse=false
反而使用 bunch (就是特征抽取之后返回的结果) 的 toarray()方法

字典特征提取和文本特征抽取相关推荐

字典特征提取，文本特征提取。
文章目录 1 定义 2. 字典特征提取API 3. 字典特征提取案例: 1.实现效果: 2.实现代码 4. 文本特征提取 1. 方法 2. 英文案例 1. 实现效果 2.流程 3. 中文案例使用到的 ...
机器学习笔记05——特征工程之特征处理:字典特征提取、文本特征提取
目录 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2 处理大量的类别特征 1.3 字典特征提取(特征离散化) ⭐ 1.4 文本特征提取(英文+中文)⭐ 1.4.1 英文数据演示 1. ...
【机器学习入门】(10) 特征工程：特征抽取，字典特征抽取、文本特征抽取，附完整python代码
各位同学好,今天和大家介绍一下python机器学习中的特征工程.在将数据放入模型之前,需要对数据的一些特征进行特征抽取,方法有: (1) 字典特征抽取 DictVectorizer(),(2) 文本特 ...
03_数据的特征抽取，sklearn特征抽取API，字典特征抽取DictVectorizer,文本特征抽取CountVectorizer，TF-IDF(TfidfVectorizer),详细案例
数据的特征抽取 A:特征抽取实例演示通过演示得出结论: 特征抽取针对非连续型数据特征抽取对文本等进行特征值化注:特征值化是为了计算机更好的去理解数据. B:sklearn特征抽取API skle ...
python文本特征提取实例_Python文本特征抽取与向量化算法学习
本文为大家分享了Python文本特征抽取与向量化的具体代码,供大家参考,具体内容如下假设我们刚看完诺兰的大片<星际穿越>,设想如何让机器来自动分析各位观众对电影的评价到底是"赞 ...
机器学习（2）特征提取1 -- 字典特征提取
目录一.基础理论 1.特征工程 2.过程 3.API 二.特征提取转化为二维矩阵 0.获取数据集 1.实例化转换器类 2.提取特征值 3.显示三.特征值转化为稀疏矩阵 0.获取数据集 1.实例化转 ...
python 文本向量化_Python文本特征抽取与向量化算法学习
本文为大家共享了Python文本特征抽取与向量化的详细代码,供大家参考,详细内容如下假设我们刚看完诺兰的大片<星际穿越>,设想怎么让机器来自动分析各位观众对电影的评价到底是"赞 ...
机器学习01:入门案例-文本特征抽取
一.字典特征抽取字典数据抽取就是把字典中的一些类别数据分别转化成特征值 from sklearn.feature_extraction import DictVectorizerdef dictv ...
NLP：自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是“数字化”)的简介、四大类方法(基于规则/基于统计，离散式【one-hot、BOW、TF-IDF】/分布式)之详细攻略
NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是"数字化")的简介.四大类方法(基于规则/基于统计,离散式[one-hot.BOW.TF-IDF]/分布式[CO- ...

字典特征提取和文本特征抽取

字典特征提取和文本特征抽取相关推荐

最新文章

热门文章