特征工程的准备:特征理解
特征理解之前的知识储备(二)
- 导读
- 数据是否具有统一的格式
- 数值是指代类别还是具体数值
- 数据的四个等级
- 总结
导读
虽然我们介绍了数据的无量纲化,但是在实际编码之前我们还是需要多做一些准备工作。
在20多年的考试生涯中,老师都不断的提醒我们多读题。而在机器学习中,多读题也就变成了多了解数据的特点。也就是接下来要介绍的几个特点。
数据是否具有统一的格式
现在数据飞速膨胀,单一的数字已经没办法满足现在的高标准严要求了。所以,这里使用一些高维度的数据进行说明。
还是收集了20万猫娘数据的你,还是分析各种疾病。但是呢,病情记录却不全是报表形式的数据,而是一大堆毫不相关的症状堆叠在一起。这种数据被称为非结构化数据,或者是无组织数据。就像是:
序号 | 账号 | 情况 |
---|---|---|
1 | 12301231823 | 眼球血丝较多,眼睛经常痒,咽喉处疼痛,鼻涕多 |
2 | 31287936661 | 呼吸不畅,喷嚏非常多,四肢无力 |
3 | 54174139414 | 胃胀痛,干呕,恶心 |
… | … | … |
当我们分析情况的时候,就会人和机器一起一头雾水,不知道从哪开始。
另外,分析疾病并不能一杆子打死,而是各有不同,需要每只猫娘的个人信息。这个时候,由于医院系统的数字化管理,猫娘的信息都是以非常标准的报表形式给出,非常方便。这些数据就是结构化数据,或者是有组织数据。就像是:
编号 | 姓名 | 年龄 | 性别 | 种族 | 持有铃铛 | 铃铛登记时间 |
---|---|---|---|---|---|---|
123831643 | 香子兰 | 14 | 女 | 猫 | 是 | 2018-12-25 |
123862173 | 巧克力 | 14 | 女 | 猫 | 是 | 2019/5/30 |
412371383 | 铃仙 | 16 | 女 | 兔 | 否 | ×\times× |
… | … | … | … | … | … |
收集这些信息的时候,由于非常严格的格式和非常好理解的表格形式,所以读取非常方便。
数值是指代类别还是具体数值
还是刚刚的个人信息的例子。
香子兰是女猫娘,这就是指代类别的数据。而年龄是14,这又是具体数值。虽然都是每一位用户的属性,却相当明确地给出了完全不一样的参考。
类别用于给用户分类,比如女性猫娘更适合比较精细的工作,而男性牛头人更适合力量型的工作等等;数值则用于定量表示用户的各种参数信息。比如握力、跳远距离等等。
数据的四个等级
刚刚我们把数据分为定性和定量两种,接下来我们继续分类:
- 定类等级
- 定序等级
- 定距等级
- 定比等级
刚刚提到的指代类别就是定类等级数据,这个比较好理解,就不再赘述。
而定序等级,则是在同一种前提下对所有的类别进行排序所得到的类别集合。打个比方,我们需要在地下城寻找更适合当裁缝的种族,所以收集大量的数据,并按照所有种族的平均表现进行排序。最后我们发现,蚕和毛毛虫这两个种族不相上下,并列第一,其次是蜘蛛,然后是人类。于是,我们就得到了一个有序的集合,这个集合就是含有定序等级的数据。虽然说这组数据中包含一些使用数据精确说明的定量数据,但是本身代表的实际上是一个类,哪怕这个数字是一个像25%25\%25%之类的确切数值数。
定距等级,顾名思义,就是设置参照并使用差值进行绘图。还是知识储备:数据的无量纲化中跳远数据的例子。比起全部使用1.5371.5371.537上下不等的共20万琐碎数据,还是将1.5371.5371.537作为新的参照重新计算这些数据反而效果会更好。其中,这个由差值组成的新的数据集就是包含定距等级的数据集。当然,毕竟是20万条数据,画图将会是密密麻麻的一片,毫无参考价值。所以,这里可以以年龄为xxx轴,每个年龄段都计算均值,这样就能得出年龄-跳远距离曲线。这个年龄又是定序等级。就变成了不同类别下的定量分析。全都联系起来了,不是么?
定比等级同样也是定量的描述,只不过和定距等级不一样的是,定距等级使用的是差值,而定比等级使用的是比值。同样需要参照物,研究的时候也是研究比值而不是源数据。CPU
、GPU
等电子产品的性能分析就是最好的例子。往往在新款CPU
、GPU
等电子产品推出的时候,都会和一个参照物进行比较。比如,intel
新款CPU
会和历代CPU
产品进行比较,频率提升了多少比率、各种测试环境下的表现提升了多少比率等等;小米会和华为比较,打开应用的速度提升了百分之多少,游戏延迟降低了百分之多少等等。这些都是定比等级。
总结
最后就用《特征工程入门与实践》中的表格作总结吧。
下面这个表格总结了本篇的核心内容,也就是四大数据特点的比较。
等级 | 属性 | 例子 | 描述性统计 | 图表 |
---|---|---|---|---|
定类 | 离散、无序 | 颜色、真或假 | 频率/占比、众数 | 条形图、饼状图 |
定序 | 有序 | 考试等级、年龄分段 | 频率、众数、中位数、百分数 | 条形图、饼图、茎叶图 |
定距 | 数据差有真实意义 | 温度、跳远 | 频率、众数、中位数、均值、标准差 | 条形图、饼图、茎叶图、箱线图、直方图 |
定比 | 连续、存在有真实意义的绝对零点,可以做除法 | 性能指标、金钱、重量 | 均值、标准差 | 直方图、箱线图 |
如果你不知道什么等级应该用什么样的统计量表示,那就对照下面这张表:
统计量 | 定类 | 定序 | 定距 | 定比 |
---|---|---|---|---|
众数 | \sqrt{} | \sqrt{} | \sqrt{} | 有时可行 |
中位数 | ×\times× | \sqrt{} | \sqrt{} | \sqrt{} |
差值、最小最大值 | ×\times× | \sqrt{} | \sqrt{} | \sqrt{} |
均值 | ×\times× | ×\times× | \sqrt{} | \sqrt{} |
标准差 | ×\times× | ×\times× | \sqrt{} | \sqrt{} |
现在,相信你对一大堆不知所云甚至毫无关联的数据的时候,不会像以前那么害怕了,不是么?最后还是提醒一下,特征工程的特征理解,最最核心的操作步骤,就是下面这张图所示的:
是不是有点能理解了?
特征工程的准备:特征理解相关推荐
- 特征工程系列:特征筛选的原理与实现(下)
0x00 前言 我们在<特征工程系列:特征筛选的原理与实现(上)>中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现.本篇继续介绍封装式和嵌入式特征筛选的原理与实现. 0x01 ...
- 机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 特征工程系列:特征预处理(下)
特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0 ...
- 「推荐系统中的特征工程」1. 特征工程基础知识介绍
作者 | gongyouliu 编辑 | auroral-L 全文共6858字,预计阅读35分钟. 本章目录 一.特征的基本概念 二.特征工程介绍 三.特征工程的基本思路和方法 1. 根据不同数据类型 ...
- 特征工程系列:特征筛选的原理与实现(上)
本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机 ...
- 特征工程之时间特征、自然语言特征、图像图像特征、数据分布不平衡
特征工程之时间特征.自然语言特征.图像图像特征.数据分布不平衡 目录 特征工程之时间特征.自然语言特征.图像图像特征
- 「机器学习速成」数据预处理,特征工程,良好特征的特点
https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...
- ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)(daiding)
ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征) 目录 特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征) 输出结果 实现代码 特征工程中的特征拼接处理(常用 ...
- ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理-特征工程之稀疏特征的简介.如何处理.案例应用之详细攻略 目录 稀疏特征的简介 稀疏特征的如何处理 稀疏特征的案例应用 稀疏特征的简介 信号稀疏表示是过去近20年来信号处理界一个非 ...
- 【完结篇】专栏 | 基于 Jupyter 的特征工程手册:特征降维
作者:陈颖祥.杨子晗 编译:AI有道 经过数据预处理和特征选择,我们已经生成了一个很好的特征子集.但是有时该子集可能仍然包含过多特征,导致需要花费太多的计算能力用以训练模型.在这种情况下,我们可以使用 ...
最新文章
- MySQL优化篇:show profile进行SQL分析
- Java8新特性Stream API与Lambda表达式详解(1)
- 关于Core Data的一些整理(一)
- XDP(eXpress Data Path)防御DDoS攻击
- matlab中的类标转换程序
- win10缺少 `VCRUNTIME140.dll` 文件(解决篇)
- Linux-Ubuntu下设置ufw防火墙
- 写随笔写日记多参与评论
- 程序员输入法_搜狗输入法高级玩法:如何1秒录入30000字
- 008 查看套接字选项是否受支持(获取当前环境下套接字选项默认值)
- Starling浅尝
- C Hello World程序
- 云计算之路-阿里云上:2014年6月12日12点IIS请求到达量突降
- Unity SRP初识笔记
- 服务器搬迁方案_机房搬迁方案
- TensorFlow 核心流程剖析 -- 2 神经网络模型的构建、分割和优化
- Android 开发艺术探索笔记(12),android开发教程百度网盘
- React脚手架---CRA
- 大麦网滑块验证码自动识别
- 刷手机二维码轻松登机(仅限移动用户)
热门文章
- 详解Java基础数据类型
- 计算机英文收集(二)
- 录屏储存失败因为5823_屏幕录制存储失败因为5823
- java实现会员充值功能
- swagger 源代码_我们如何使用swagger代码生成器从Angular 4更新到Angular 5
- 立创eda学习笔记十四:pcb板画布设置
- ERROR: Could not build wheels for numpy which use PEP 517 and cannot be installed directly
- python计算等额本金_等额本金-逆推 - tedzheng的个人空间 - OSCHINA - 中文开源技术交流社区...
- css3 3d头像,创意css3头像展示_觉唯设计
- kafka集群kafka-eagle安装