前面介绍了独热编码和哑编码,还有一种可以将定性特征转化为定量特征的方法,即factorize(),下面将介绍一下该方法

概要:在泰坦尼克灾难预测中,dummy不好处理Cabin(船舱号)这种标称属性,因为它出现的变量比较多。所以Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

factorize函数可以将Series中的标称型数据映射称为一组数字,相同的标称型映射为相同的数字。factorize函数的返回值是一个tuple(元组),元组中包含两个元素。第一个元素是一个array,其中的元素是标称型元素映射为的数字;第二个元素是Index类型,其中的元素是所有标称型元素,没有重复。
看代码:

df = pd.DataFrame({"id":[1,2,3,4,5,6,3,2],"raw_grade":['a','b','b','a','a','e','c','a']})
print(df)
x = pd.factorize(df.raw_grade)
print(x)

   id raw_grade
0   1         a
1   2         b
2   3         b
3   4         a
4   5         a
5   6         e
6   3         c
7   2         a
(array([0, 1, 1, 0, 0, 2, 3, 0], dtype=int64), Index(['a', 'b', 'e', 'c'], dtype='object'))

print(x[0])
print(x[1])

[0 1 1 0 0 2 3 0]
Index(['a', 'b', 'e', 'c'], dtype='object')

看一下x的类型

print(type(x))

<class 'tuple'>

总结:对于one-hot encoding、dummy enconding还是factorize都可以将定性特征转化为定量特征,三种方法各有各自最适用的场合,要根据实际情况作出最合理的选择,以便在数据处理的过程中得到最理想的结果。

转载于:https://www.cnblogs.com/djesse1/p/10559449.html

定性特征转化为定量特征之factorize相关推荐

  1. 平均数编码:针对高基数定性特征(类别特征)的数据预处理/特征工程

    https://zhuanlan.zhihu.com/p/26308272 (在另一篇文章中,我正在汇总所有已知的数据挖掘特征工程技巧:[持续更新]机器学习特征工程实用技巧大全 - 知乎专栏.) 前言 ...

  2. 【特征工程】17种将离散特征转化为数字特征的方法

    作者 | Samuele Mazzanti 编译 | VK 来源 | Towards Data Science "你知道哪种梯度提升算法?" "Xgboost,Light ...

  3. 2023电工杯数学建模AB题思路分析

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  4. 2023电工杯数学建模A题思路

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  5. 2023电工杯数学建模B题思路分析

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  6. 2023电工杯数学建模A题B题思路模型

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  7. 2023电工杯数学建模B题思路模型

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  8. 2023电工杯数学建模B题思路

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  9. 2023年第十五届电工杯数学建模A题B题思路汇总

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

  10. 2023年电工杯数学建模AB题思路分析

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4.1 分类问题 4.2 优化问题 4.3 预测问题 4.4 评价问题 0 赛题思路 (赛题出来以后第一时间在C ...

最新文章

  1. 【错误记录】Android Studio 配置 GitHub 报错 ( Can‘t login using given credentials: Request response: 401 Una )
  2. 注册表文件修改打开程序的简单示例
  3. 对象存储S3访问姿势
  4. mysql把一个字段加到另一张表中_mysql如何能把一个表中的某一字段下的数据加入另一个表中相同字段下,条件是两表中的某字段相同?...
  5. C学习杂记(四)sizeof计算联合体大小
  6. Android 应用更新和在服务器下载android应用
  7. csapp 深入理解计算机系统 csapp.h csapp.c文件配置
  8. Android 性能分析岗位,2021Android最新大厂面试真题总结,架构师必备技能
  9. my first d3d application 哈哈哈。
  10. 全国省市区数据库sql
  11. SpringBoot排序之Order注解
  12. js Math.rander的用法
  13. c#实现Udp通信(四)--UPD大数据量接收(异步接收)
  14. 红孩儿编辑器的概要设计第二部分
  15. 共模干扰以及共模干扰消除方法
  16. Web自动化测试02
  17. ElasticSearch-查询语法(结构化查询)
  18. 北航计算机是啥水平,清华眼中的北航是什么水平?附北航2020年全国录取分数线...
  19. APPH系列相位噪声分析仪和VCO测试仪—输入高达40GHz
  20. minio 文件预览_MinIO Docs | MinIO快速入门指南

热门文章

  1. 【M365运维】Outlook会议室查找工具找不到会议室
  2. 中国交通标志检测数据集
  3. stm32无感无刷电机驱动
  4. Eclipse常用快捷键
  5. 大数据杀熟已被明令禁止!
  6. Linux常用命令 shell脚本for QA-数据脱敏版2
  7. 网上赚钱最快的方法 干什么能挣钱快
  8. 最多能匹配出多长的相同连续子序列_论文导读 | GPU加速子图同构算法
  9. 一名大学毕业生的反思《上》
  10. IIS导入SSL证书