pandas中的get_dummies()
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)
参数说明:
data : array-like, Series, or DataFrame 输入的数据
prefix : string, list of strings, or dict of strings, default None. get_dummies转换后,列名的前缀
columns : list-like, default None 指定需要实现类别转换的列名
dummy_na : bool, default False 增加一列表示空缺值,如果False就忽略空缺值
drop_first : bool, default False 获得k中的k-1个类别值,去除第一个
get_dummies是一种onehot编码方式,将拥有不同值的变量转换为0/1数值。比如说我们将yellow,red,blue三种颜色分别用1,2,3表示它们的编号。只是用1,2,3区分,实际上1,2,3是没有什么数值上的意义。
import pandas as pd
xiaoming=pd.DataFrame([1,2,3],index=['yellow','red','blue'],columns=['hat'])
print(xiaoming)
hat_ranks=pd.get_dummies(xiaoming['hat'],prefix='hat')
print(hat_ranks.head())
输出结果:
hat
yellow 1
red 2
blue 3hat_1 hat_2 hat_3
yellow 1 0 0
red 0 1 0
blue 0 0 1
再举一个例子,我们没有设定编号,只给定了种类(color和class)。让程序自带的编号作为区分种类,得到的结果如下:
import pandas as pd
df = pd.DataFrame([ ['green' , 'A'], ['red' , 'B'], ['blue' , 'A']]) df.columns = ['color', 'class']
pd.get_dummies(df)
还有要注意的是:
离散特征的编码分为两种情况:
1、离散特征的取值之间没有大小的意义,比如color:[red,blue,green],那么就使用one-hot编码
2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}
pandas中的get_dummies()相关推荐
- pandas中的get_dummies方法
参考:https://blog.csdn.net/u010665216/article/details/78635664?utm_source=copy https://blog.csdn.net/l ...
- 【Python基础】在pandas中使用pipe()提升代码可读性
1 简介 我们在利用pandas开展数据分析时,应尽量避免过于「碎片化」的组织代码,尤其是创建出过多不必要的「中间变量」,既浪费了「内存」,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性 ...
- pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法
缺失值的处理是一件艺术活,最高的境界应该是缺而不失.pandas中提供了非常丰富的工具来对缺失值进行处理.这里主要是对常用方法的简要介绍. 注:不同地区和软件对缺失值的表示方法不同,在用pandas读 ...
- pandas中DataFrame的ix,loc,iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
- Pandas 中的这些函数/属性将被 deprecated
作者 | luanhz 来源丨小数志 导读 Pandas对于日常数据分析和处理来说是最常用的工具(没有之一),笔者之前也总结分享了很多相关用法和技巧. 与之不同,今天本文来介绍几个已经在函数文档中列入 ...
- 最近,又发现了 Pandas 中三个好用的函数
作者 | luanhz 来源 | 小数志 导读 近日,在github中查看一些他人提交的代码时,发现了Pandas中这三个函数,在特定场景中着实好用,遂成此文以作分享. 程序的基本结构大体包含三种,即 ...
- 20个经典函数细说 Pandas 中的数据读取与存储,强烈建议收藏
作者 | 俊欣 来源 | 关于数据分析与可视化 大家好,今天小编来为大家介绍几个Pandas读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定 ...
- Python—pandas中DataFrame类型数据操作函数
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFram ...
- pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations)、例如,计算两种商品销售额之间的3个月的滚动相关性
pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations).例如,计算两种商品销售额之间的3个月的滚动相关性 目录
最新文章
- Swift 3.0封装 URLSession 的GET/SET方法代替 Alamofire
- Swift数组扩容原理
- 都说做ToB商业模式,VR AR博物馆内容的矿或许可以挖下
- couldn't find native method
- Android ORM 框架之 greenDAO 使用心得
- Redis持久化方式的选择
- 支持向量机SVM算法原理及应用(R)
- 第四范式:现代存储架构下的系统优化实践
- knn算法(分类)-机器学习
- MFC/VC CxImage 简单配置与使用 (完整版)
- 获得显示器设置的分辨率
- linux 如何查看远程代码分支,linux看git 创建分支、删除本地分支、查看远程分支、本地分支例子...
- Android开发笔记(七十一)区分开发模式和上线模式
- template 不能分别在.h和.cpp中定义模板
- SSL/TLS协议详解(上):密码套件,哈希,加密,密钥交换算法
- 文件上传到ftp服务器命令,ftp上传文件到服务器命令
- 百度地图的反地址解析(通过经纬度查询地址信息)
- 阿里云ECS服务器修复漏洞
- 序列标注 | (4) Hierarchically-Refined Label Attention Network for Sequence Labeling
- Golang iota踩坑