特征理解之前的知识储备(二)

  • 导读
  • 数据是否具有统一的格式
  • 数值是指代类别还是具体数值
  • 数据的四个等级
  • 总结

导读

虽然我们介绍了数据的无量纲化,但是在实际编码之前我们还是需要多做一些准备工作。

在20多年的考试生涯中,老师都不断的提醒我们多读题。而在机器学习中,多读题也就变成了多了解数据的特点。也就是接下来要介绍的几个特点。

数据是否具有统一的格式

现在数据飞速膨胀,单一的数字已经没办法满足现在的高标准严要求了。所以,这里使用一些高维度的数据进行说明。

还是收集了20万猫娘数据的你,还是分析各种疾病。但是呢,病情记录却不全是报表形式的数据,而是一大堆毫不相关的症状堆叠在一起。这种数据被称为非结构化数据,或者是无组织数据。就像是:

序号 账号 情况
1 12301231823 眼球血丝较多,眼睛经常痒,咽喉处疼痛,鼻涕多
2 31287936661 呼吸不畅,喷嚏非常多,四肢无力
3 54174139414 胃胀痛,干呕,恶心

当我们分析情况的时候,就会人和机器一起一头雾水,不知道从哪开始。

另外,分析疾病并不能一杆子打死,而是各有不同,需要每只猫娘的个人信息。这个时候,由于医院系统的数字化管理,猫娘的信息都是以非常标准的报表形式给出,非常方便。这些数据就是结构化数据,或者是有组织数据。就像是:

编号 姓名 年龄 性别 种族 持有铃铛 铃铛登记时间
123831643 香子兰 14 2018-12-25
123862173 巧克力 14 2019/5/30
412371383 铃仙 16 ×\times×

收集这些信息的时候,由于非常严格的格式和非常好理解的表格形式,所以读取非常方便。

数值是指代类别还是具体数值

还是刚刚的个人信息的例子。

香子兰是女猫娘,这就是指代类别的数据。而年龄是14,这又是具体数值。虽然都是每一位用户的属性,却相当明确地给出了完全不一样的参考。

类别用于给用户分类,比如女性猫娘更适合比较精细的工作,而男性牛头人更适合力量型的工作等等;数值则用于定量表示用户的各种参数信息。比如握力、跳远距离等等。

数据的四个等级

刚刚我们把数据分为定性和定量两种,接下来我们继续分类:

  • 定类等级
  • 定序等级
  • 定距等级
  • 定比等级

刚刚提到的指代类别就是定类等级数据,这个比较好理解,就不再赘述。

定序等级,则是在同一种前提下对所有的类别进行排序所得到的类别集合。打个比方,我们需要在地下城寻找更适合当裁缝的种族,所以收集大量的数据,并按照所有种族的平均表现进行排序。最后我们发现,蚕和毛毛虫这两个种族不相上下,并列第一,其次是蜘蛛,然后是人类。于是,我们就得到了一个有序的集合,这个集合就是含有定序等级的数据。虽然说这组数据中包含一些使用数据精确说明的定量数据,但是本身代表的实际上是一个类,哪怕这个数字是一个像25%25\%25%之类的确切数值数。

定距等级,顾名思义,就是设置参照并使用差值进行绘图。还是知识储备:数据的无量纲化中跳远数据的例子。比起全部使用1.5371.5371.537上下不等的共20万琐碎数据,还是将1.5371.5371.537作为新的参照重新计算这些数据反而效果会更好。其中,这个由差值组成的新的数据集就是包含定距等级的数据集。当然,毕竟是20万条数据,画图将会是密密麻麻的一片,毫无参考价值。所以,这里可以以年龄为xxx轴,每个年龄段都计算均值,这样就能得出年龄-跳远距离曲线。这个年龄又是定序等级。就变成了不同类别下的定量分析。全都联系起来了,不是么?

定比等级同样也是定量的描述,只不过和定距等级不一样的是,定距等级使用的是差值,而定比等级使用的是比值。同样需要参照物,研究的时候也是研究比值而不是源数据。CPUGPU等电子产品的性能分析就是最好的例子。往往在新款CPUGPU等电子产品推出的时候,都会和一个参照物进行比较。比如,intel新款CPU会和历代CPU产品进行比较,频率提升了多少比率、各种测试环境下的表现提升了多少比率等等;小米会和华为比较,打开应用的速度提升了百分之多少,游戏延迟降低了百分之多少等等。这些都是定比等级

总结

最后就用《特征工程入门与实践》中的表格作总结吧。

下面这个表格总结了本篇的核心内容,也就是四大数据特点的比较

等级 属性 例子 描述性统计 图表
定类 离散、无序 颜色、真或假 频率/占比、众数 条形图、饼状图
定序 有序 考试等级、年龄分段 频率、众数、中位数、百分数 条形图、饼图、茎叶图
定距 数据差有真实意义 温度、跳远 频率、众数、中位数、均值、标准差 条形图、饼图、茎叶图、箱线图、直方图
定比 连续、存在有真实意义的绝对零点,可以做除法 性能指标、金钱、重量 均值、标准差 直方图、箱线图

如果你不知道什么等级应该用什么样的统计量表示,那就对照下面这张表:

统计量 定类 定序 定距 定比
众数 \sqrt{}​ \sqrt{}​ \sqrt{}​ 有时可行
中位数 ×\times× \sqrt{}​ \sqrt{}​ \sqrt{}​
差值、最小最大值 ×\times× \sqrt{}​ \sqrt{}​ \sqrt{}​
均值 ×\times× ×\times× \sqrt{}​ \sqrt{}​
标准差 ×\times× ×\times× \sqrt{}​ \sqrt{}​

现在,相信你对一大堆不知所云甚至毫无关联的数据的时候,不会像以前那么害怕了,不是么?最后还是提醒一下,特征工程的特征理解,最最核心的操作步骤,就是下面这张图所示的:

是不是有点能理解了?

特征工程的准备:特征理解相关推荐

  1. 特征工程系列:特征筛选的原理与实现(下)

    0x00 前言 我们在<特征工程系列:特征筛选的原理与实现(上)>中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现.本篇继续介绍封装式和嵌入式特征筛选的原理与实现. 0x01 ...

  2. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  3. 特征工程系列:特征预处理(下)

    特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0 ...

  4. 「推荐系统中的特征工程」1. 特征工程基础知识介绍

    作者 | gongyouliu 编辑 | auroral-L 全文共6858字,预计阅读35分钟. 本章目录 一.特征的基本概念 二.特征工程介绍 三.特征工程的基本思路和方法 1. 根据不同数据类型 ...

  5. 特征工程系列:特征筛选的原理与实现(上)

    本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机 ...

  6. 特征工程之时间特征、自然语言特征、图像图像特征、数据分布不平衡

    特征工程之时间特征.自然语言特征.图像图像特征.数据分布不平衡 目录 特征工程之时间特征.自然语言特征.图像图像特征

  7. 「机器学习速成」数据预处理,特征工程,良好特征的特点

    https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...

  8. ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征)(daiding)

    ML之FE:特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征) 目录 特征工程中的特征拼接处理(常用于横向拼接自变量特征和因变量特征) 输出结果 实现代码 特征工程中的特征拼接处理(常用 ...

  9. ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略

    ML之FE:数据处理-特征工程之稀疏特征的简介.如何处理.案例应用之详细攻略 目录 稀疏特征的简介 稀疏特征的如何处理 稀疏特征的案例应用 稀疏特征的简介 信号稀疏表示是过去近20年来信号处理界一个非 ...

  10. 【完结篇】专栏 | 基于 Jupyter 的特征工程手册:特征降维

    作者:陈颖祥.杨子晗 编译:AI有道 经过数据预处理和特征选择,我们已经生成了一个很好的特征子集.但是有时该子集可能仍然包含过多特征,导致需要花费太多的计算能力用以训练模型.在这种情况下,我们可以使用 ...

最新文章

  1. MySQL优化篇:show profile进行SQL分析
  2. Java8新特性Stream API与Lambda表达式详解(1)
  3. 关于Core Data的一些整理(一)
  4. XDP(eXpress Data Path)防御DDoS攻击
  5. matlab中的类标转换程序
  6. win10缺少 `VCRUNTIME140.dll` 文件(解决篇)
  7. Linux-Ubuntu下设置ufw防火墙
  8. 写随笔写日记多参与评论
  9. 程序员输入法_搜狗输入法高级玩法:如何1秒录入30000字
  10. 008 查看套接字选项是否受支持(获取当前环境下套接字选项默认值)
  11. Starling浅尝
  12. C Hello World程序
  13. 云计算之路-阿里云上:2014年6月12日12点IIS请求到达量突降
  14. Unity SRP初识笔记
  15. 服务器搬迁方案_机房搬迁方案
  16. TensorFlow 核心流程剖析 -- 2 神经网络模型的构建、分割和优化
  17. Android 开发艺术探索笔记(12),android开发教程百度网盘
  18. React脚手架---CRA
  19. 大麦网滑块验证码自动识别
  20. 刷手机二维码轻松登机(仅限移动用户)

热门文章

  1. 详解Java基础数据类型
  2. 计算机英文收集(二)
  3. 录屏储存失败因为5823_屏幕录制存储失败因为5823
  4. java实现会员充值功能
  5. swagger 源代码_我们如何使用swagger代码生成器从Angular 4更新到Angular 5
  6. 立创eda学习笔记十四:pcb板画布设置
  7. ERROR: Could not build wheels for numpy which use PEP 517 and cannot be installed directly
  8. python计算等额本金_等额本金-逆推 - tedzheng的个人空间 - OSCHINA - 中文开源技术交流社区...
  9. css3 3d头像,创意css3头像展示_觉唯设计
  10. kafka集群kafka-eagle安装