数据处理中有时要用到onehot编码,如果使用pandas自带的get_dummies方法,训练集产生的onehot编码特征会跟测试集、预测集不一样,正确的方式是使用sklearn自带的OneHotEncoder。

代码

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(handle_unknown='ignore')
data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'],'籍贯':['福州','厦门','泉州','龙岩']})
ohe.fit(data_train)#训练规则
feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名
data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'],'籍贯':['福州','莆田']})
data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上

如果对你有帮助,请点下赞,予人玫瑰手有余香!

时时仰望天空,理想就会离现实越来越近!

训练集产生的onehot编码特征如何在测试集、预测集复现相关推荐

  1. ubuntu16.04下使用YOLOV3训练自己做的VOC数据集(VOC数据集制作+模型训练步骤+训练参数解析和问题解决+训练日志可视化(loss、IOU)+模型测试(单张、摄像头、批量测试))

    前序 1.环境配置 请自行参考其他博客 本机环境 ubuntu16.04 python3 英伟达显卡驱动:nvidia-396 OpenCV3.4.5 CUDNN7.0.5 CUDA9.0 2.ubu ...

  2. Python计算医疗数据训练集、测试集的对应的临床特征:训练集(测试集)的阴性和阳性的样本个数、连续变量的均值(标准差)以及训练测试集阳性阴性的p值、离散变量的分类统计、比率、训练测试集阳性阴性的p值

    Python使用pandas和scipy计算医疗数据训练集.测试集的对应的临床特征:训练集(测试集)的阴性和阳性的样本个数.连续变量的均值(标准差࿰

  3. [机器学习与scikit-learn-12]:数据预处理-5-重新编码:特征的二值化、oneHot编码

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  4. 特征工程之One-Hot编码、label-encoding、自定义编码

    目录 One-Hot编码 代码实现 One-Hot编码优缺点 One-Hot编码使用场景 归一化适用场景 label encoding<

  5. 你真的懂one-hot编码吗?

    一个很隐晦的问题 在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间,所以往 ...

  6. 关于One-hot编码的一些整理及用途[转载+整理]

    在学习one-hot编码前,我们首先要知道,连续值的离散化为什么会提升模型的非线性能力? 简单的说,使用连续变量的LR模型,模型表示为公式(1),而使用了one-hot或哑变量编码后的模型表示为公式( ...

  7. OneHot编码知识点

    OneHot编码 两个多月没有更新博客了,一直忙于天池某个比赛和开题方面的事宜,现在重新抓起,更新博客,希望能整理+思考得出些有营养的东西,也算是自己的笔记方便以后查阅. 如果有错误,请回复指出,谢谢 ...

  8. pandas进行one-hot编码

    1.读取数据 本文采用的是美国成年人收入的数据集 import pandas as pd from IPython.display import display data = pd.read_csv( ...

  9. 如何对连续型数据进行离散化处理,并进行OneHot编码?

    如何对连续型数据进行离散化处理,并进行OneHot编码,最终将OneHot编码作为特征因子输入模型? 什么是OneHot编码 One-Hot编码是分类变量作为二进制向量的表示.这首先要求将分类值映射到 ...

最新文章

  1. ubuntu 安装eclipse neon版本
  2. Android的应用程序结构分析:HelloActivity 第二部分【转】
  3. 用python批量创建docker_「docker实战篇」python的docker-docker镜像的创建使用dockerfile(3...
  4. DBN训练学习-A fast Learning algorithm for deep belief nets
  5. 计算机桌面有黑边怎么调整,电脑屏幕旁边有黑色框如何恢复_电脑两边黑边怎么还原-win7之家...
  6. python 变量赋值是引用和拷贝_Python 中变量赋值传递时的引用和拷贝
  7. 移动端touch实现下拉刷新
  8. 重磅发布|蚂蚁金服与电子标准院达成战略合作 共同推进数据安全行业的标准化...
  9. Asp.NetCore程序发布到CentOs(含安装部署netcore)--最佳实践(二)
  10. AI安全 - 华为白皮书《AI Security White Paper》
  11. visual stdio 2010与sqlserver 2008下载和安装
  12. [面试系列]华为OD社招前端面试复盘
  13. [零基础学Python]字典,你还记得吗?
  14. python打开qq并登录_使用Python进行QQ批量登录的实例代码
  15. 脚本自动化部署docker微服务,取代Jenkins
  16. html5制作课程表app,课程表软件哪个好用些?5款便捷实用的课程表软件推荐
  17. C#-属性和方法的Fody的使用(AOP)
  18. (附源码)ssm学生考勤管理系统 毕业设计 260952
  19. 记录CentOS8 开机卡住的问题解决过程
  20. Spring boot 配置文件yml的用法

热门文章

  1. MYSQL 基于抖音上MYSQL开发工程师面试,如果是你怎么样
  2. 压缩pdf,pdf压缩软件一分钟搞定
  3. S50非接触式IC卡 学习笔记
  4. linux内存加速硬盘缓存,linux块设备加速缓存之bcache
  5. iqooneo3 如何不用vivo账号下载外部应用_配置上的巨人,软件呢?iQOO Neo3系统评测...
  6. HISTOGRA - Largest Rectangle in a Histogram
  7. Winseeing外贸软件如何提高仓储物流管理水平
  8. DELPHI中鼠标的各种操作
  9. 了解一下MISC出题思路
  10. rtthread posix接口支持