抽样可划分 训练集 和 验证集,具体到某一个连续型的数值变量,通过还要经过标准化的过程,这里以0-1标准化为例,描述了三种抽样和标准化的做法思路。这里要指出,三种思路都有问题,因此想请教更好的做法,或者目前信贷建模领域通常的做法。

第1种,总体先抽样,再将训练集和验证集分别进行标准化,问题显而易见,由训练集得出的模型,会与验证集标准化后的数据标准不一致;

第2种,总体先抽样,将训练集标准化,并以标准化后的最大值最小值应用到验证集上,这应该是目前程序种的主流做法,但问题也显而易见,训练集和验证集毕竟是两个数据集,最大值和最小值是不一样的,因此会出现验证集标准化结果超出0-1范围的情况;

第3种,总体先进行标准化,然后在进行抽样,这样的好处是避免了第2种方式的问题,训练集和验证集,在一个标准化的条件下参与建模。但问题依旧,比如新来一批数据,完全有可能在旧总体之外,那么也会出现超出0-1范围的可能。

希望不吝赐教,谢谢

**【求助】关于抽样和标准化的问题**相关推荐

  1. 舍选法抽样matlab,12 重要抽样法 | 统计计算

    12.2 带有舍选控制的重要抽样法 在重要抽样法和标准化重要抽样法的实际应用中, 好的试抽样分布很难获得, 所以权重\(\{ W_i = f(\boldsymbol X_i)/g(\boldsymbo ...

  2. 机器学习笔记-假设检验

    前言   假设检验是推断统计的一项重要内容,它是先对总体参数提出一个假设值,然后利用样本信息来判断这个假设是否成立.本章主要介绍了假设检验的基本原理和如何针对不同的数据集选择合适的检验方法. 假设检验 ...

  3. pandas数据预处理(标准化归一化、离散化/分箱/分桶、分类数据处理、时间类型数据处理、样本类别分布不均衡数据处理、数据抽样)

    1. 数值型数据的处理 1.1 标准化&归一化 数据标准化是一个常用的数据预处理操作,目的是处理不同规模和量纲的数据,使其缩放到相同的数据区间和范围,以减少规模.特征.分布差异等对模型的影响. ...

  4. 获取pheatmap聚类后和标准化后的结果

    pheatmap是简单常用的热图绘制包,可以快速.简单.可定制的绘制漂亮热图.具体见R语言学习-热图简化和免费高颜值可定制在线绘图工具 ImageGP. 现在要解决的一个问题是图出来了,想看下转换后用 ...

  5. 1183位求助者的数据画像:不是弱者,而是你我

    来源:RUC新闻坊 本文约为1400字,建议阅读5分钟 我们利用大数据为求助者画像. 我截止到2月21日24时,根据国家卫健委的数据,新型冠状病毒肺炎的最新数字为累计报告确诊病例76288例,现有疑似 ...

  6. R语言学习 - 热图美化 (数值标准化和调整坐标轴顺序)

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  7. 获取pheatmap热图聚类后和标准化后的结果

    pheatmap是简单常用的热图绘制包,可以快速.简单.可定制的绘制漂亮热图.具体见R语言学习-热图简化和免费高颜值可定制在线绘图工具 ImageGP. 现在要解决的一个问题是图出来了,想看下转换后用 ...

  8. 为什么要特征标准化及特征标准化方法

    1.归一化定义 归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内.归一化的原因是什么那? 2.归一化原因 一是,为了后面数据处理的方便,把不同量纲的东西放在同一量纲下 ...

  9. 国家两部委印发《智慧家庭综合标准化体系建设指南》

    导读:工业和信息化部.国家标准化管理委员印发的<智慧家庭综合标准化体系建设指南>提出,到2020年初步建立符合我国智慧家庭产业发展需要的标准体系,形成基础标准较为完善.主要产品和服务标准基 ...

最新文章

  1. 【个人成长】数据分析——证书
  2. redmine 邮件发送问题修复
  3. 【转】c#数字图像处理(一)Bitmap类、 Bitmapdata类和 Graphics类
  4. 记录 Duplicate spring bean id dubbo
  5. ubuntu或者fedora下编译淘宝tair key-value-db的开源内存数据库
  6. LoadRunner参数化---数据文件属性 之 数据分配方法和数据更新方法
  7. 智慧高校怎么做教育监控?Smartbi高校大数据服务平台来帮您
  8. list.php tid= field,DEDE5.7手机移动版实现与PC电脑版静态地址url一致教程(含伪静态规则) | 八戒哥技术博客...
  9. 浅谈 NCSI 及其在 Linux 上的实现--IBM Developer社区文章
  10. 防御性编程:足够偏执
  11. 《麦田里的守望者》 经典摘录
  12. 扎克伯格“致敬”微信,但Facebook Pay能像微信支付一样成功吗?
  13. sudoku me_Sudoku,一个完整的MFC应用程序。 第7部分
  14. [职场、征人、面试]新技术能解决多少问题?....没有标准答案的个人感言
  15. IjkVideoView的视频宽高比怎么设置
  16. 关于2进制与十六进制的转换;C语言
  17. 为您的创业公司推荐5款类Slack开源协作工具
  18. ModuleNotFoundError: No module named gensim.corpora
  19. 单端反激式变换器开关稳压电源原理图 此博文包含图片 (2009-02-24 12:17:53)转载▼ 标签: 单端反激式 变换器 高频变压器 原理图 磁滞回线 磁心 杂谈 分类: technical
  20. nodejs+puppeteer+chromium爬取异步数据页面(英雄联盟英雄资料列表页+详情页)

热门文章

  1. 第二十篇:稳定性之服务如何分级
  2. git提交本地项目gitlab合并分支提交代码合并分支时的冲突解决git拉取新项目
  3. 推荐王国政老师的个人空间----编程之路源于认真和沉迷
  4. 电脑没有声音了怎么恢复?3个实用方法分享!
  5. 牛客小白月赛30题解
  6. 详解Unicode字符集以及字符编码实现(一)
  7. linux进程调度采取的是,Linux进程调度
  8. 什么是DNS服务器?有哪些作用?
  9. html代码起名字,经典HTML代码.doc
  10. CMD 更改代码 chcp 936 是GBK的编码