什么叫字典特征提取?

字典内容转化成计算机可以处理的数值

比如现在有个字典:

    data = [{"city":"北京", "tempeture":100, "age":11} , {"city":"上海", "tempeture":60,"age":12} ,{"city":"深圳", "tempeture":20,"age":13}]

分别是老三,老四,老五的个人基本信息
我们想提取出来这几个人的特征值,也就是给我用一个向量,表示某个独一无二的人的特征

我们先给出代码

#coding=utf-8
#特征提取
#首先导入转换器类
from sklearn.feature_extraction  import  DictVectorizerdef dec_demo():data = [{"city":"北京", "tempeture":100, "age":11} , {"city":"上海", "tempeture":60,"age":12} ,{"city":"深圳", "tempeture":20,"age":13} ]# 1. 实例化一个转换模块,不使用稀疏矩阵dt2= DictVectorizer( sparse=False )# 2. 调用fit_transform()result = dt.fit_transform(data)print(result)return Noneif __name__=="__main__":dec_demo()

结果是:

[[ 11.   0.   1.   0. 100.][ 12.   1.   0.   0.  60.][ 13.   0.   0.   1.  20.]]

特征模板是: [‘age’, ‘city=上海’, ‘city=北京’, ‘city=深圳’, ‘tempeture’]

这就叫做字典特征提取


那么以此类推,文本特征提取也是类似,依靠向量表示数

#coding=utf-8
from sklearn.feature_extraction.text import CountVectorizerdef context_Demo():'''文本特征抽取'''context=["life is hard,we need to envisage ourselves, life is"]# 实例化一个内容转换器CV =  CountVectorizer()# 调用fit_transformresult = CV.fit_transform(context)print(result.toarray())print("\n")print(CV.get_feature_names()) if  __name__ == "__main__":context_Demo()

结果是:

[[1 1 2 2 1 1 1 1]]['envisage', 'hard', 'is', 'life', 'need', 'ourselves', 'to', 'we']

请注意

不能设置sparse=false
反而使用 bunch (就是特征抽取之后返回的结果) 的 toarray()方法

字典特征提取和文本特征抽取相关推荐

  1. 字典特征提取,文本特征提取。

    文章目录 1 定义 2. 字典特征提取API 3. 字典特征提取案例: 1.实现效果: 2.实现代码 4. 文本特征提取 1. 方法 2. 英文案例 1. 实现效果 2.流程 3. 中文案例 使用到的 ...

  2. 机器学习 笔记05——特征工程之特征处理:字典特征提取、文本特征提取

    目录 1.类别型特征的处理-特征编码 1.1 处理少量特征 1.2 处理大量的类别特征 1.3 字典特征提取(特征离散化) ⭐ 1.4   文本特征提取(英文+中文)⭐ 1.4.1 英文数据演示 1. ...

  3. 【机器学习入门】(10) 特征工程:特征抽取,字典特征抽取、文本特征抽取,附完整python代码

    各位同学好,今天和大家介绍一下python机器学习中的特征工程.在将数据放入模型之前,需要对数据的一些特征进行特征抽取,方法有: (1) 字典特征抽取 DictVectorizer(),(2) 文本特 ...

  4. 03_数据的特征抽取,sklearn特征抽取API,字典特征抽取DictVectorizer,文本特征抽取CountVectorizer,TF-IDF(TfidfVectorizer),详细案例

    数据的特征抽取 A:特征抽取实例演示 通过演示得出结论: 特征抽取针对非连续型数据 特征抽取对文本等进行特征值化 注:特征值化是为了计算机更好的去理解数据. B:sklearn特征抽取API skle ...

  5. python文本特征提取实例_Python文本特征抽取与向量化算法学习

    本文为大家分享了Python文本特征抽取与向量化的具体代码,供大家参考,具体内容如下 假设我们刚看完诺兰的大片<星际穿越>,设想如何让机器来自动分析各位观众对电影的评价到底是"赞 ...

  6. 机器学习(2)特征提取1 -- 字典特征提取

    目录 一.基础理论 1.特征工程 2.过程 3.API 二.特征提取转化为二维矩阵 0.获取数据集 1.实例化转换器类 2.提取特征值 3.显示 三.特征值转化为稀疏矩阵 0.获取数据集 1.实例化转 ...

  7. python 文本向量化_Python文本特征抽取与向量化算法学习

    本文为大家共享了Python文本特征抽取与向量化的详细代码,供大家参考,详细内容如下 假设我们刚看完诺兰的大片<星际穿越>,设想怎么让机器来自动分析各位观众对电影的评价到底是"赞 ...

  8. 机器学习01:入门案例-文本特征抽取

    一.字典特征抽取 字典数据抽取就是把字典中的一些类别数据 分别转化成特征值 from sklearn.feature_extraction import DictVectorizerdef dictv ...

  9. NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是“数字化”)的简介、四大类方法(基于规则/基于统计,离散式【one-hot、BOW、TF-IDF】/分布式)之详细攻略

    NLP:自然语言处理领域常见的文本特征表示/文本特征抽取(本质都是"数字化")的简介.四大类方法(基于规则/基于统计,离散式[one-hot.BOW.TF-IDF]/分布式[CO- ...

最新文章

  1. 【redis】redis简介及基本数据结构的操作
  2. 【NLP实战】Task1 数据集探索
  3. 激励和设定可实现的目标是任何学习成功的关键。
  4. 第2篇:Flowable快速工作流脚手架Jsite_配置项目
  5. Hadoop集群(一) Zookeeper搭建
  6. shell if语句特殊用法(高级用法),工具安装判断
  7. Linux cat 命令用法
  8. linux 静态库、共享库
  9. java persistence.xml_java – 找不到persistence.xml
  10. UI进阶——XMPP即时通讯
  11. CSMA/CD和拥塞控制AIMD其实是一回事!
  12. 如何给自己的照片制作水印
  13. Java Web 后续(三)
  14. Windows7下安装Ubuntu 16.04双系统
  15. Dlink路由器后门分析
  16. Android学习资料整理收集--路漫漫其修远兮
  17. java里怎么给excel加框线,使用Jacob操作word 添加表格时 如何给表格添加边框线
  18. Docker容器域名解析失败
  19. JAVA的安装与卸载
  20. 【linux虚拟机使用yum安装MySQL+修改密码】

热门文章

  1. springboot论坛交流小程序毕业设计毕设作品开题报告开题答辩PPT
  2. SpringSecurity基础:记住我
  3. 弹弹堂拍卖场查看具体拍卖截止时间
  4. 计算机辅助工程的核心,计算机辅助工程杂志省级期刊投稿
  5. 科技新发现:新型高熵合金的诞生!
  6. BMC 历史漏洞汇总
  7. Photoshop cs5基础教程-形状层画播放器
  8. 关于运行Python时出现ImportError: cannot import name 'InteractiveConsole'的解决方案,看似简单,实则致命!!
  9. 逾期率的水有多深,你知道吗?
  10. Express全系列教程之(四):获取Post参数的两种方式