Orange做机器学习特征工程
一、通用变量处理
采用数据预处理模块,对原始文件进行标准化,其中一般标准差处理适合大部分场景,对NULL的处理也有一些
采用离散化处理模块,对原始文件或预处理后文件进行处理,可以选择全部分1-N,也可以针对不同变量离散化不一样,但是这个是比较粗糙的,因为orange做离散化是没有逻辑性,只有分频或者分层
二、特征工程
采用特征工程方式,可以对一些需要做如增速、环比等变量未必在数据处理时候做,也可以放到orange特征工程这个模块,方便快捷,而且可以随意处理。
1 if() else 0
yes,no
以上是特征工程的基本语法,()中的变量可以在特征库中筛选,这个工具还是对数据处理非常不错的。
三、发现和探索方式
混淆矩阵(confusion Martrix)可以帮助判断分类的情况,接入到scatter plot就可以发现正确、错误的分类是如何发生的;
Ranking这个包括信息增益和基尼增益,可以放到数据集上判断原始数据信息量,也可以放到test score模块后面,判断各个变量的对模型的影响情况
Datatable如果放到如逻辑回归等模型后面,可以帮助你来对每个变量的权重进行判断,从而拿到各个变量的影响值。
四、最后的关于AUC、F1、CA、召回率和精确率的再次解释;
所有模型其实都不是完美的,关键还是看应用场景所需要的、强调的内容,比如大夫判断癌症宁可错杀一千不能放掉一个,那么对召回率要求很高,反而对精确度一般;
而如分析采购或送礼品卷等行为,那么重要的分类准确,尽量让目标分类更多的可以完成我们预计的任务。
为了方便,以下专业名词都用英文替代了。本人留学狗,脑子不好使容易蹦英文单词,不喜勿喷哈。
准确率 - accuracy
精确率 - precision
召回率 - recall
F1值 - F1-score
ROC曲线下面积 - ROC-AUC (area under curve)
PR曲线下面积 - PR-AUC
可以参考原来博主文章:精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?_Ritter Liu的专栏-CSDN博客_auc f1
Orange做机器学习特征工程相关推荐
- 机器学习实战 | 机器学习特征工程最全解读
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...
- 双样本T检验——机器学习特征工程相关性分析实战
最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...
- 机器学习-特征工程中的特征降维
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习-特征工程中的数据预处理
对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...
- 机器学习——特征工程——数据的标准化(Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer)
数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. 比如线性回归模型.逻辑回归模型或包含矩阵的模型,它们会 ...
- 探讨使用UML设计机器学习特征工程与深度学习建模等大数据分析软件
大数据人工智能软件产品研发,是在传统软件工程的基础上,增加了数据特征分析.人工智能算法建模及模型训练过程,同时也增加了很大的不确定性. 0. 前言 本文以程序员视角,以客户流失为案例,使用UML方式设 ...
- 机器学习——特征工程之分类变量
机器学习--特征工程之分类变量 前言 分类变量的编码 1.one-hot 编码 2.虚拟编码 3.效果编码 处理大型分类变量 1.特征散列化 2.分箱计数 总结 前言 关于特征工程,已经对空值.数值型 ...
- 机器学习特征工程之连续变量离散化:聚类法进行分箱
机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...
- 机器学习特征工程之连续变量离散化:等频分箱
机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...
最新文章
- java 字符间距_java中,label或者文本框怎么设置字符之间的间距
- docker 搭建私有仓库
- nanopi基础配置
- 【Asp.net】Cookie对象
- 连不上网_手机连不上网?四种方法教你如何解决,建议收藏以备不时之需
- 2015蓝桥杯省赛---java---C---6(奇妙的数字)
- 聊聊自己的高效学习方法~
- 抖音公布“美好音符年”活动数据:这个省的用户最好运
- babel插件入门-AST
- oracle php 教程 pdf,AJAX+PHP+Oracle数据库Web开发 ((美)Lee Barney) 中文PDF扫描版 37.5M
- Description Resource Path Location Type The import collides with another import statement
- 如何查SCI期刊的影响因子与排名
- HCIP——IPv6地址基础
- Fastreport VCL 4.15.6 for Delphi 4 ~ XE 5
- SEO怎么获取企业精准流量?
- 算法刷题打卡第34天:有效的井字游戏
- css控制文本超出省略(单行、两行、多行)
- [论文速览] Sparks of Artificial General Intelligence: Early experiments with GPT-4
- python 图灵完备_什么是图灵完备?
- Android10 FFmpeg开发案例之实现一个简易视频编辑器
热门文章
- 【机器人制作入门】 ① 自制机器人的架构
- python五子棋算法_BetaMeow----利用机器学习做五子棋AI
- java微信模板消息推送
- layui数据表格时间戳转换为时间格式的方法
- amd python mkl_AMD用于深度学习到底Yes吗? 基于mkl和openblas的numpy运算速度小测与安装教程...
- STM32中断笔记——关于NVIC的两个问题
- 从互联网思维走向智联网思维
- 去水印小程序遇到的download合法域名的问题
- Eigen 入门 VectorXcd MatrixXcd LDL SVD
- RL策略梯度方法之(十二): actor-critic with experience replay(ACER)