一、通用变量处理

采用数据预处理模块,对原始文件进行标准化,其中一般标准差处理适合大部分场景,对NULL的处理也有一些

采用离散化处理模块,对原始文件或预处理后文件进行处理,可以选择全部分1-N,也可以针对不同变量离散化不一样,但是这个是比较粗糙的,因为orange做离散化是没有逻辑性,只有分频或者分层

二、特征工程

采用特征工程方式,可以对一些需要做如增速、环比等变量未必在数据处理时候做,也可以放到orange特征工程这个模块,方便快捷,而且可以随意处理。

1 if() else 0

yes,no

以上是特征工程的基本语法,()中的变量可以在特征库中筛选,这个工具还是对数据处理非常不错的。

三、发现和探索方式

混淆矩阵(confusion Martrix)可以帮助判断分类的情况,接入到scatter plot就可以发现正确、错误的分类是如何发生的;

Ranking这个包括信息增益和基尼增益,可以放到数据集上判断原始数据信息量,也可以放到test score模块后面,判断各个变量的对模型的影响情况

Datatable如果放到如逻辑回归等模型后面,可以帮助你来对每个变量的权重进行判断,从而拿到各个变量的影响值。

四、最后的关于AUC、F1、CA、召回率和精确率的再次解释;

所有模型其实都不是完美的,关键还是看应用场景所需要的、强调的内容,比如大夫判断癌症宁可错杀一千不能放掉一个,那么对召回率要求很高,反而对精确度一般;

而如分析采购或送礼品卷等行为,那么重要的分类准确,尽量让目标分类更多的可以完成我们预计的任务。

为了方便,以下专业名词都用英文替代了。本人留学狗,脑子不好使容易蹦英文单词,不喜勿喷哈。

准确率 - accuracy

精确率 - precision

召回率 - recall

F1值 - F1-score

ROC曲线下面积 - ROC-AUC (area under curve)

PR曲线下面积 - PR-AUC

可以参考原来博主文章:精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?_Ritter Liu的专栏-CSDN博客_auc f1

Orange做机器学习特征工程相关推荐

  1. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  2. 双样本T检验——机器学习特征工程相关性分析实战

    最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...

  3. 机器学习-特征工程中的特征降维

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  4. 机器学习-特征工程中的数据预处理

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  5. 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)

    数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...

  6. 探讨使用UML设计机器学习特征工程与深度学习建模等大数据分析软件

    大数据人工智能软件产品研发,是在传统软件工程的基础上,增加了数据特征分析.人工智能算法建模及模型训练过程,同时也增加了很大的不确定性. 0. 前言 本文以程序员视角,以客户流失为案例,使用UML方式设 ...

  7. 机器学习——特征工程之分类变量

    机器学习--特征工程之分类变量 前言 分类变量的编码 1.one-hot 编码 2.虚拟编码 3.效果编码 处理大型分类变量 1.特征散列化 2.分箱计数 总结 前言 关于特征工程,已经对空值.数值型 ...

  8. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  9. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

最新文章

  1. java 字符间距_java中,label或者文本框怎么设置字符之间的间距
  2. docker 搭建私有仓库
  3. nanopi基础配置
  4. 【Asp.net】Cookie对象
  5. 连不上网_手机连不上网?四种方法教你如何解决,建议收藏以备不时之需
  6. 2015蓝桥杯省赛---java---C---6(奇妙的数字)
  7. 聊聊自己的高效学习方法~
  8. 抖音公布“美好音符年”活动数据:这个省的用户最好运
  9. babel插件入门-AST
  10. oracle php 教程 pdf,AJAX+PHP+Oracle数据库Web开发 ((美)Lee Barney) 中文PDF扫描版 37.5M
  11. Description Resource Path Location Type The import collides with another import statement
  12. 如何查SCI期刊的影响因子与排名
  13. HCIP——IPv6地址基础
  14. Fastreport VCL 4.15.6 for Delphi 4 ~ XE 5
  15. SEO怎么获取企业精准流量?
  16. 算法刷题打卡第34天:有效的井字游戏
  17. css控制文本超出省略(单行、两行、多行)
  18. [论文速览] Sparks of Artificial General Intelligence: Early experiments with GPT-4
  19. python 图灵完备_什么是图灵完备?
  20. Android10 FFmpeg开发案例之实现一个简易视频编辑器

热门文章

  1. 【机器人制作入门】 ① 自制机器人的架构
  2. python五子棋算法_BetaMeow----利用机器学习做五子棋AI
  3. java微信模板消息推送
  4. layui数据表格时间戳转换为时间格式的方法
  5. amd python mkl_AMD用于深度学习到底Yes吗? 基于mkl和openblas的numpy运算速度小测与安装教程...
  6. STM32中断笔记——关于NVIC的两个问题
  7. 从互联网思维走向智联网思维
  8. 去水印小程序遇到的download合法域名的问题
  9. Eigen 入门 VectorXcd MatrixXcd LDL SVD
  10. RL策略梯度方法之(十二): actor-critic with experience replay(ACER)