Pandas的get_dummies 实例的应用
Pandas的get_dummies
what?:get_dummies是Pandas进行独热编码(One-Hot encode)的函数
上图的左边灰色框(python debug出来的)是python执行下述代码后的结果
dummies_Embarked = pd.get_dummies(data_train['Embarked'],prefix='Embarked')
上图的右边是一个Excel 中的Embarked列,很明显:
get_dummies 函数直白的表示就是把一个属性(Embarked)中不同类别分开并用布尔值表示出来,0表示非这类。
如索引0:
Embarked_C、Embarked_Q、Embarked_S分别为:0 0 1
表示索引0属于属性Embarked中的S类
目的:常用于机器学习过程中,把一些类属性(如男的女的)转换成数值属性(0,1)便于后续特征的输入
扩展:
sklearn里用OneHotEncoder
from sklearn.preprocessing import OneHotEncoder# 将标签转换为独热编码
encoder = OneHotEncoder()
Y = encoder.fit_transform(Y.reshape(Y.shape[0], 1))
Y = Y.toarray().T
Y = Y.astype('uint8')
tensorflow的one_hot Encoder
one_hot(indices, depth, on_value=None, off_value=None, axis=None, dtype=None, name=None)
该函数的功能主要是转换成one_hot类型的张量输出。
参数功能如下:
1)indices中的元素指示on_value的位置,不指示的地方都为off_value。indices可以是向量、矩阵。
2)depth表示输出张量的尺寸,indices中元素默认不超过(depth-1),如果超过,输出为[0,0,···,0]
3)on_value默认为1
4)off_value默认为0
5)dtype默认为tf.float32
https://www.cnblogs.com/muzidaitou/p/11262820.html
Pytorch里的one_hot Encoder
import torchtargets = torch.tensor([5, 3, 2, 1])targets_to_one_hot = torch.nn.functional.one_hot(targets) # 默认按照targets其中的最大值+1作为one_hot编码的长度
# result:
# tensor(
# [0, 0, 0, 0, 0, 1],
# [0, 0, 0, 1, 0, 0],
# [0, 0, 1, 0, 0, 0],
# [0, 1, 0, 0, 0, 0]
#)targets_to_one_hot = torch.nn.functional.one_hot(targets, num_classes=7) 3# 指定one_hot编码长度为7
# result:
# tensor(
# [0, 0, 0, 0, 0, 1, 0],
# [0, 0, 0, 1, 0, 0, 0],
# [0, 0, 1, 0, 0, 0, 0],
# [0, 1, 0, 0, 0, 0, 0]
#)
https://blog.csdn.net/weixin_44604887/article/details/109523281
Pandas的get_dummies 实例的应用相关推荐
- python pandas读取excel-Python使用Pandas读写Excel实例解析
这篇文章主要介绍了Python使用Pandas读写Excel实例解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 Pandas是python的一个 ...
- Python之pandas:pandas的get_dummies函数简介(将分类变量转为哑变量)及其使用方法之详细攻略
Python之pandas:pandas的get_dummies函数简介(将分类变量转为哑变量)及其使用方法之详细攻略 目录 pandas的get_dummies函数简介 pandas.get_dum ...
- Pandas数据分析⑥——数据分析实例(货品送达率与合格率/返修率/拒收率)
Pandas系列目录如下: Pandas数据分析①--数据读取(CSV/TXT/JSON) Pandas数据分析②--数据清洗(重复值/缺失值/异常值) Pandas数据分析③--数据规整1(索引和列 ...
- pandas使用get_dummies进行one-hot编码
官网:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html pandas.get_dummies( ...
- python 数据分析模块_Python数据分析pandas模块用法实例详解
本文实例讲述了Python数据分析pandas模块用法.分享给大家供大家参考,具体如下: pandas pandas10分钟入门,可以查看官网:10 minutes to pandas 也可以查看更复 ...
- pandas 数据查询实例
import pandas as pdfpath = "D:\\python39\\pandas\\antlearnpandasmaster\\datas\\beijing_tianqi\\ ...
- pandas美国人口分析实例
美国人口分析 读取csv文件中的数据 使用merge进行数据融合 当需要级联的属性名相同时 当需要级联的属性名不同时 删除一列数据:drop 查看空数据,并根据不同情况进行相应处理 数据清洗 当空数据 ...
- pandas的get_dummies
简单说一下:虚拟变量 哑变量 dummy Variable 这三个一个意思. 我总结一下我的理解:就是添加原来数据中没有的变量,但是这并不是意味着可以随意添加,应该是根据原来的数据进 ...
- Scikit-Learn大变化:合并Pandas
作者 | Ted Petrou 译者 | 王天宇 编辑 | Jane 出品 | AI科技大本营 [导读]近日,Scikit-Learn 发布了 0.20 版本,这是近年来最大的一次更新.对许多数据科学 ...
最新文章
- RRT,RRT*,A*,Dijkstra,PRM算法
- java 文件 字符串_java将字符串写入到txt文件中
- 超硬核!我统计了BAT笔试面试出现频率最高的五道题,学会了总能碰到一道
- Android 快捷方式
- Windwos Server 2008 R2 DHCP服务
- 第二章 jQuery选择器
- java hex2bin_hex2bin / bin2hex / pack / unpack 的理解及应用
- 【DataOps】- 数据开发治理一体化之网易数帆数据治理2.0实践分享
- 计算机读法综艺中文翻译英语,汉语综艺节目英译字幕组现状初探
- 东芝打印机共享怎么设置_东芝 e-studio181怎么设置网络打印机
- ArcGIS 10.7基础:三种栅格影像裁剪操作
- 读nandflash---根据数据手册K9GAG08U0D
- 9.2-Scrapy框架爬虫【进阶】-spiders用法
- JBE与JLE的区别
- 【Comsol学习】二维非稳态热传导问题
- CS -exe木马分析
- 文件服务器属于固定资产吗,云服务器属于固定资产吗
- 浅析BootStrap
- HTML 标签的 coords 属性
- 人工智能笔记 2.1人工智能导论- 1.什么是AI,深度优先,广度优先,最优路径
热门文章
- iptables 初识
- 大唐杯 5G工程实践 (35:00-45:00)任务三 任务五(15%)
- java 字节码对象_通过java字节码分析学习对象初始化顺序
- 实例化抽象类的方法分享
- 实现一个算法,确定一个字符串的所有字符是否全都不同?
- python爬虫滑动验证码_python爬虫21 | 对于b站这样的滑动验证码,不好意思,照样自动识别...
- 使用WinNTSetup重装系统
- 5 Designing Specification
- gateway---服务网关
- Python(五)文件与IO