pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)

参数说明:

data : array-like, Series, or DataFrame 输入的数据
prefix : string, list of strings, or dict of strings, default None. get_dummies转换后,列名的前缀
columns : list-like, default None 指定需要实现类别转换的列名
dummy_na : bool, default False 增加一列表示空缺值,如果False就忽略空缺值
drop_first : bool, default False 获得k中的k-1个类别值,去除第一个

get_dummies是一种onehot编码方式,将拥有不同值的变量转换为0/1数值。比如说我们将yellow,red,blue三种颜色分别用1,2,3表示它们的编号。只是用1,2,3区分,实际上1,2,3是没有什么数值上的意义。

import pandas as pd
xiaoming=pd.DataFrame([1,2,3],index=['yellow','red','blue'],columns=['hat'])
print(xiaoming)
hat_ranks=pd.get_dummies(xiaoming['hat'],prefix='hat')
print(hat_ranks.head())

输出结果:

        hat
yellow    1
red       2
blue      3hat_1  hat_2  hat_3
yellow      1      0      0
red         0      1      0
blue        0      0      1

再举一个例子,我们没有设定编号,只给定了种类(color和class)。让程序自带的编号作为区分种类,得到的结果如下:

import pandas as pd
df = pd.DataFrame([  ['green' , 'A'],   ['red'   , 'B'],   ['blue'  , 'A']])  df.columns = ['color',  'class']
pd.get_dummies(df) 

 还有要注意的是:

离散特征的编码分为两种情况:

1、离散特征的取值之间没有大小的意义,比如color:[red,blue,green],那么就使用one-hot编码

2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

pandas中的get_dummies()相关推荐

  1. pandas中的get_dummies方法

    参考:https://blog.csdn.net/u010665216/article/details/78635664?utm_source=copy https://blog.csdn.net/l ...

  2. 【Python基础】在pandas中使用pipe()提升代码可读性

    1 简介 我们在利用pandas开展数据分析时,应尽量避免过于「碎片化」的组织代码,尤其是创建出过多不必要的「中间变量」,既浪费了「内存」,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性 ...

  3. pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法

    缺失值的处理是一件艺术活,最高的境界应该是缺而不失.pandas中提供了非常丰富的工具来对缺失值进行处理.这里主要是对常用方法的简要介绍. 注:不同地区和软件对缺失值的表示方法不同,在用pandas读 ...

  4. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

  5. Pandas 中的这些函数/属性将被 deprecated

    作者 | luanhz 来源丨小数志 导读 Pandas对于日常数据分析和处理来说是最常用的工具(没有之一),笔者之前也总结分享了很多相关用法和技巧. 与之不同,今天本文来介绍几个已经在函数文档中列入 ...

  6. 最近,又发现了 Pandas 中三个好用的函数

    作者 | luanhz 来源 | 小数志 导读 近日,在github中查看一些他人提交的代码时,发现了Pandas中这三个函数,在特定场景中着实好用,遂成此文以作分享. 程序的基本结构大体包含三种,即 ...

  7. 20个经典函数细说 Pandas 中的数据读取与存储,强烈建议收藏

    作者 | 俊欣 来源 | 关于数据分析与可视化 大家好,今天小编来为大家介绍几个Pandas读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定 ...

  8. Python—pandas中DataFrame类型数据操作函数

    python数据分析工具pandas中DataFrame和Series作为主要的数据结构.  本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数.  1)查看DataFram ...

  9. pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations)、例如,计算两种商品销售额之间的3个月的滚动相关性

    pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations).例如,计算两种商品销售额之间的3个月的滚动相关性 目录

最新文章

  1. Swift 3.0封装 URLSession 的GET/SET方法代替 Alamofire
  2. Swift数组扩容原理
  3. 都说做ToB商业模式,VR AR博物馆内容的矿或许可以挖下
  4. couldn't find native method
  5. Android ORM 框架之 greenDAO 使用心得
  6. Redis持久化方式的选择
  7. 支持向量机SVM算法原理及应用(R)
  8. 第四范式:现代存储架构下的系统优化实践
  9. knn算法(分类)-机器学习
  10. MFC/VC CxImage 简单配置与使用 (完整版)
  11. 获得显示器设置的分辨率
  12. linux 如何查看远程代码分支,linux看git 创建分支、删除本地分支、查看远程分支、本地分支例子...
  13. Android开发笔记(七十一)区分开发模式和上线模式
  14. template 不能分别在.h和.cpp中定义模板
  15. SSL/TLS协议详解(上):密码套件,哈希,加密,密钥交换算法
  16. 文件上传到ftp服务器命令,ftp上传文件到服务器命令
  17. 百度地图的反地址解析(通过经纬度查询地址信息)
  18. 阿里云ECS服务器修复漏洞
  19. 序列标注 | (4) Hierarchically-Refined Label Attention Network for Sequence Labeling
  20. Golang iota踩坑

热门文章

  1. 诊断分析-2-滚动轴承故障诊断
  2. 三人三鬼问题解决思路
  3. 0023-HOSTS配置问题导致集群异常故障分析
  4. video自动播放 隐藏播放控制条,并且用点击 video 元素的时候 控制暂停和播放...
  5. plsql 查看表结构所有的字段_产品操作MySQL第2篇 – 设计一张表
  6. 修改jar中的class:杀戮尖塔修改教程
  7. 思维导图 iMindMap 初用
  8. 06-蘑菇街产品详情页面
  9. java 导出word乱码问题,99%解决问题
  10. mac查询端口号和关闭端口号