pandas中的get

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False)

参数说明：

data : array-like, Series, or DataFrame 输入的数据
prefix : string, list of strings, or dict of strings, default None. get_dummies转换后，列名的前缀
columns : list-like, default None 指定需要实现类别转换的列名
dummy_na : bool, default False 增加一列表示空缺值，如果False就忽略空缺值
drop_first : bool, default False 获得k中的k-1个类别值，去除第一个

get_dummies是一种onehot编码方式，将拥有不同值的变量转换为0/1数值。比如说我们将yellow,red,blue三种颜色分别用1，2，3表示它们的编号。只是用1，2，3区分，实际上1，2，3是没有什么数值上的意义。

import pandas as pd
xiaoming=pd.DataFrame([1,2,3],index=['yellow','red','blue'],columns=['hat'])
print(xiaoming)
hat_ranks=pd.get_dummies(xiaoming['hat'],prefix='hat')
print(hat_ranks.head())

输出结果：

        hat
yellow    1
red       2
blue      3hat_1  hat_2  hat_3
yellow      1      0      0
red         0      1      0
blue        0      0      1

再举一个例子，我们没有设定编号，只给定了种类（color和class）。让程序自带的编号作为区分种类，得到的结果如下：

import pandas as pd
df = pd.DataFrame([  ['green' , 'A'],   ['red'   , 'B'],   ['blue'  , 'A']])  df.columns = ['color',  'class']
pd.get_dummies(df)

还有要注意的是：

离散特征的编码分为两种情况：

1、离散特征的取值之间没有大小的意义，比如color：[red,blue,green],那么就使用one-hot编码

2、离散特征的取值有大小的意义，比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}

pandas中的get_dummies()相关推荐

pandas中的get_dummies方法
参考:https://blog.csdn.net/u010665216/article/details/78635664?utm_source=copy https://blog.csdn.net/l ...
【Python基础】在pandas中使用pipe()提升代码可读性
1 简介我们在利用pandas开展数据分析时,应尽量避免过于「碎片化」的组织代码,尤其是创建出过多不必要的「中间变量」,既浪费了「内存」,又带来了关于变量命名的麻烦,更不利于整体分析过程代码的可读性 ...
pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法
缺失值的处理是一件艺术活,最高的境界应该是缺而不失.pandas中提供了非常丰富的工具来对缺失值进行处理.这里主要是对常用方法的简要介绍. 注:不同地区和软件对缺失值的表示方法不同,在用pandas读 ...
pandas中DataFrame的ix，loc，iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
Pandas 中的这些函数/属性将被 deprecated
作者 | luanhz 来源丨小数志导读 Pandas对于日常数据分析和处理来说是最常用的工具(没有之一),笔者之前也总结分享了很多相关用法和技巧. 与之不同,今天本文来介绍几个已经在函数文档中列入 ...
最近，又发现了 Pandas 中三个好用的函数
作者 | luanhz 来源 | 小数志导读近日,在github中查看一些他人提交的代码时,发现了Pandas中这三个函数,在特定场景中着实好用,遂成此文以作分享. 程序的基本结构大体包含三种,即 ...
20个经典函数细说 Pandas 中的数据读取与存储，强烈建议收藏
作者 | 俊欣来源 | 关于数据分析与可视化大家好,今天小编来为大家介绍几个Pandas读取数据以及保存数据的方法,毕竟我们很多时候需要读取各种形式的数据,以及将我们需要将所做的统计分析保存成特定 ...
Python—pandas中DataFrame类型数据操作函数
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFram ...
pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性（Rolling correlations）、例如，计算两种商品销售额之间的3个月的滚动相关性
pandas中使用rolling.corr函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations).例如,计算两种商品销售额之间的3个月的滚动相关性目录

pandas中的get_dummies()

pandas中的get_dummies()相关推荐

最新文章

热门文章