在进行数据处理之前,往往需要对数据中一些不完美的地方进行预处理,使得我们能够更好地进行数据的分析计算。


缺失值

一、删除

如果某一项缺失数据过多,剩余的记录可能难以再反映出真实的情况,可以考虑删除该项。

二、均值、众数插补

对于一些对个体精度要求不高的数据,可以考虑将缺失的值用均值/众数填充。
例如:人口数量年龄、经济产业情况。

三、牛顿插值法

通过牛顿插值法公式,构造近似函数。
适合于关注函数精确值而不关系函数变化的数据。
例如:地形测量、热力学温度、定位

推荐参考链接

四、样条插值法

适合数据变化曲线较为光滑的数据。
例如:零件加工、水库流量、物体运动轨迹


异常值

对于异常值,处理方法一般是把该值删除,然后按照缺失值的处理方法进行处理。

那么问题来了,如何判断一个值石佛iu为异常值呢?

一、正态分布

数据大概率处于(u−3σ,u+3σ)(u - 3σ,u + 3σ)(u−3σ,u+3σ)内,不在此范围的数据大概率为异常值。

PS:仅适用于符合正态分布规律的数据。

二、画箱型图

基本步骤如下:

  1. 吧数据从小到大排序,下四分位Q1为排在25%的数值,上四分位Q3为排在75%的数值。
  2. 四分位距IQR = Q3 - Q1
  3. 划分正常值区间,[Q1−1.5+IQR,Q3+1.5+IQR][Q_1-1.5+IQR,Q_3+1.5+IQR][Q1​−1.5+IQR,Q3​+1.5+IQR]。(1.5为习惯取值)

推荐参考链接


参考资料:
参考链接

[数学建模] 数据预处理相关推荐

  1. 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc

    数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...

  2. matlab插值与拟合例题_菜鸟进阶系列:MATLAB数学建模·数据插值与拟合

    本篇算是开始数据处理了.首先明确俩概念:插值和拟合.两者最根本的共同点都是基于现有数据进行预测.推演,比如根据现有的天文观测数据预测天体位置.插值问题是数学史上的经典问题,拉格朗日.高斯.牛顿等著名数 ...

  3. python数学建模--数据拟合

    目录 numpy.ployfit() scipy.optimize.curve_fit() Python的多个模块中,很多函数或方法可以拟合未知参数,比如 numpy.ployfit() 问题1:对下 ...

  4. (一)MATLAB数学建模——数据拟合

    目录 一.简介 二.多项式拟合 (一)指令介绍 (二)代码 三.指定函数拟合 (一)指令介绍 (二)代码 一.简介 曲线拟合也叫曲线逼近,主要要求拟合的曲线能合理反映数据的基本趋势,而不一定要求曲线一 ...

  5. 【数学建模 | 快速入门(上)】笔记----(P1-P8)

    P3:赛前准备 1.在搜索大量文献之后,排除背景看不懂的题,优先选择资料多的 2.少数服从多数,在看完题之后,可以三个人各自发表看法 3.尽量开赛6小时内定题 P4 如何百度 P5 查文献技巧 P6 ...

  6. 数据包络分析DEA(数学建模)

    一.模型背景 数据包络分析是线性规划模型的应用之一,常被用来衡量拥有相同目标的运营单位的相对效率. 数据包络分析是一种基于线性规划的用于评价同类型组织(或项目)工作绩效相对有效性的特殊工具手段.这类组 ...

  7. Python数学建模 正态分布检验

    文章目录 基于Python的数学建模 数据生成 散点图/直方图 QQ图(Quantile-Quantile Plot) JB检验(大样本 n>30) Shapior-wilk检验(小样本 3 基 ...

  8. spss数据预处理步骤_数学建模准备必备的十个数据分析软件(数学建模从入门到精通)...

    前几天咋们聊了很多关于数学建模的干货,比如怎么样去前期准备学习数学建模,又比如数学建模需要哪些疾病软件?再比如数学建模论文摘要写作技巧.昨天那篇更是直接把数学建模常用的思维导图.流程图软件全部统统介绍 ...

  9. (二)数据预处理 2019年研究生数学建模D题《汽车行驶工况构建》

    在准备阶段,我们取得了突破性的进展,全面掌握了这个题目的来源和做法,下面开始做第一问. 解题思路 明确技术路线 开始做题目之前,在前面的基础工作开展后,就可以明确汽车行驶工况构建的基本研究技术路线了: ...

最新文章

  1. 【运维学习笔记】生命不息,搞事开始。。。
  2. Asp.Net Core在线生成二维码
  3. Fetch API 初步解读
  4. 全新算法助机器学习抵抗干扰
  5. ma应用、超级短线、分钟短线买卖和看盘心得
  6. 直播 | LiveVideoStack Meet杭州:后直播时代技术
  7. Coursera课程Python for everyone:Quiz: Multi-Table Relational SQL
  8. 表的插入、更新、删除、合并操作_13_通过表关联更新多个字段
  9. Git常用命令备忘(一) 转载
  10. 2top 存储过程 查看_S7-1500 PLC的存储区
  11. Maven工程的多模块
  12. 深入理解InnoDB(1)—行的存储结构
  13. 谷歌开源Allstar 项目,保护GitHub 仓库安全
  14. 看电影学英语:不速之客[The Vistor] [二]
  15. 小规模45万免税,免的是增值税,没有企业所得税!
  16. 【Nee】MMD镜头+动作打包下载.zip
  17. abyy a+poj1062
  18. 站内优化第一篇:页面标签对于网站SEO的重要性
  19. 日裔美国人推出「推特观察」twitter排行榜,10小时制作10小时爆红
  20. 【Designing ML Systems】第 10 章 :MLOps 的基础设施和工具

热门文章

  1. vim配色方案murphy,以及多行注释插入技巧
  2. 精通安卓性能优化-第七章(二)
  3. 峰哥读者从设计转行外包数仓,再跳槽到甲方做大数据开发
  4. Runtime(运行时)是什么意思
  5. 【codevs2343】简单题【位运算】【卡常大法好】
  6. 移动端网页如何实现加载更多分页
  7. 苹果cms全局标签及各页面ID
  8. 2023腾讯面试真题:
  9. 修改系统配置:让WinXP不再越用越慢
  10. mt4挂虚拟服务器,mt4挂云服务器需要哪个系统