[数学建模] 数据预处理
在进行数据处理之前,往往需要对数据中一些不完美的地方进行预处理,使得我们能够更好地进行数据的分析计算。
缺失值
一、删除
如果某一项缺失数据过多,剩余的记录可能难以再反映出真实的情况,可以考虑删除该项。
二、均值、众数插补
对于一些对个体精度要求不高的数据,可以考虑将缺失的值用均值/众数填充。
例如:人口数量年龄、经济产业情况。
三、牛顿插值法
通过牛顿插值法公式,构造近似函数。
适合于关注函数精确值而不关系函数变化的数据。
例如:地形测量、热力学温度、定位
推荐参考链接
四、样条插值法
适合数据变化曲线较为光滑的数据。
例如:零件加工、水库流量、物体运动轨迹
异常值
对于异常值,处理方法一般是把该值删除,然后按照缺失值的处理方法进行处理。
那么问题来了,如何判断一个值石佛iu为异常值呢?
一、正态分布
数据大概率处于(u−3σ,u+3σ)(u - 3σ,u + 3σ)(u−3σ,u+3σ)内,不在此范围的数据大概率为异常值。
PS:仅适用于符合正态分布规律的数据。
二、画箱型图
基本步骤如下:
- 吧数据从小到大排序,下四分位Q1为排在25%的数值,上四分位Q3为排在75%的数值。
- 四分位距IQR = Q3 - Q1
- 划分正常值区间,[Q1−1.5+IQR,Q3+1.5+IQR][Q_1-1.5+IQR,Q_3+1.5+IQR][Q1−1.5+IQR,Q3+1.5+IQR]。(1.5为习惯取值)
推荐参考链接
参考资料:
参考链接
[数学建模] 数据预处理相关推荐
- 数据预处理 拉依达准则 matlab,数学建模数据预处理.doc
数据预处理 摘要 目前,大量研究工作都集中于数据挖掘算法的探讨,而忽略了对数据预处理的研究.事实上,数据预处理对数据挖掘十分重要,而且必不可少.要使数据挖掘出有效的知识,必须为其提供干净,准确,简洁的 ...
- matlab插值与拟合例题_菜鸟进阶系列:MATLAB数学建模·数据插值与拟合
本篇算是开始数据处理了.首先明确俩概念:插值和拟合.两者最根本的共同点都是基于现有数据进行预测.推演,比如根据现有的天文观测数据预测天体位置.插值问题是数学史上的经典问题,拉格朗日.高斯.牛顿等著名数 ...
- python数学建模--数据拟合
目录 numpy.ployfit() scipy.optimize.curve_fit() Python的多个模块中,很多函数或方法可以拟合未知参数,比如 numpy.ployfit() 问题1:对下 ...
- (一)MATLAB数学建模——数据拟合
目录 一.简介 二.多项式拟合 (一)指令介绍 (二)代码 三.指定函数拟合 (一)指令介绍 (二)代码 一.简介 曲线拟合也叫曲线逼近,主要要求拟合的曲线能合理反映数据的基本趋势,而不一定要求曲线一 ...
- 【数学建模 | 快速入门(上)】笔记----(P1-P8)
P3:赛前准备 1.在搜索大量文献之后,排除背景看不懂的题,优先选择资料多的 2.少数服从多数,在看完题之后,可以三个人各自发表看法 3.尽量开赛6小时内定题 P4 如何百度 P5 查文献技巧 P6 ...
- 数据包络分析DEA(数学建模)
一.模型背景 数据包络分析是线性规划模型的应用之一,常被用来衡量拥有相同目标的运营单位的相对效率. 数据包络分析是一种基于线性规划的用于评价同类型组织(或项目)工作绩效相对有效性的特殊工具手段.这类组 ...
- Python数学建模 正态分布检验
文章目录 基于Python的数学建模 数据生成 散点图/直方图 QQ图(Quantile-Quantile Plot) JB检验(大样本 n>30) Shapior-wilk检验(小样本 3 基 ...
- spss数据预处理步骤_数学建模准备必备的十个数据分析软件(数学建模从入门到精通)...
前几天咋们聊了很多关于数学建模的干货,比如怎么样去前期准备学习数学建模,又比如数学建模需要哪些疾病软件?再比如数学建模论文摘要写作技巧.昨天那篇更是直接把数学建模常用的思维导图.流程图软件全部统统介绍 ...
- (二)数据预处理 2019年研究生数学建模D题《汽车行驶工况构建》
在准备阶段,我们取得了突破性的进展,全面掌握了这个题目的来源和做法,下面开始做第一问. 解题思路 明确技术路线 开始做题目之前,在前面的基础工作开展后,就可以明确汽车行驶工况构建的基本研究技术路线了: ...
最新文章
- 【运维学习笔记】生命不息,搞事开始。。。
- Asp.Net Core在线生成二维码
- Fetch API 初步解读
- 全新算法助机器学习抵抗干扰
- ma应用、超级短线、分钟短线买卖和看盘心得
- 直播 | LiveVideoStack Meet杭州:后直播时代技术
- Coursera课程Python for everyone:Quiz: Multi-Table Relational SQL
- 表的插入、更新、删除、合并操作_13_通过表关联更新多个字段
- Git常用命令备忘(一) 转载
- 2top 存储过程 查看_S7-1500 PLC的存储区
- Maven工程的多模块
- 深入理解InnoDB(1)—行的存储结构
- 谷歌开源Allstar 项目,保护GitHub 仓库安全
- 看电影学英语:不速之客[The Vistor] [二]
- 小规模45万免税,免的是增值税,没有企业所得税!
- 【Nee】MMD镜头+动作打包下载.zip
- abyy a+poj1062
- 站内优化第一篇:页面标签对于网站SEO的重要性
- 日裔美国人推出「推特观察」twitter排行榜,10小时制作10小时爆红
- 【Designing ML Systems】第 10 章 :MLOps 的基础设施和工具