一、常见数据分析软件

Excel(office三件套之一)、R语言、Eviews、origin(图形分析工具)、SPSS(统计分析与数据挖掘)
MATLAB(墙裂推荐)、python(墙裂推荐)、SAS

二、统计性描述

  1. 均值(mean):xˉ=1n∑i=1nxi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}xˉ=n1​i=1∑n​xi​
  2. 方差(var)、均方差(std): S2=1n−1∑i=1n(xi−xˉ)2,S=1n−1∑i=1n(xi−xˉ)2\quad S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}S2=n−11​i=1∑n​(xi​−xˉ)2,S=n−11​i=1∑n​(xi​−xˉ)2​
    (与传统的方差不同,这里除以的是n-1)
  3. 偏度(df.skewness):标准化三阶中心矩阵,反映对称性,当其值大于0时,此时数据位于均值右侧的比位于左侧的多
    sk=1n∑i=1n(xi−xˉ)3s3s_{k}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{s^{3}}sk​=s3n1​∑i=1n​(xi​−xˉ)3​
  4. 峰度(df.kurt):标准化四阶中心矩阵,当其值大于3时,表示分布有沉重的尾巴,说明样本有较多远离均值的数据G2=1n∑i=1n(xi−xˉ)4(1n∑i=1n(x1−xˉ)2)2−3G_{2}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{1}-\bar{x}\right)^{2}\right)^{2}}-3G2​=(n1​∑i=1n​(x1​−xˉ)2)2n1​∑i=1n​(xi​−xˉ)4​−3
  5. 分位数(df.quantile( p )):若概率0<p<1,随机变量X或他的概率分布的分位数Za是指满足条件p(X < Za)=α的实数

三、数据的预处理

  1. 缺漏数据的处理

    • 删掉这条数据:df.dropna(axis=0,how="any",inplace=False)
    • 用均值填充:
      means = df[列].mean()df[列].fillna(means)
    
    • 用中位数来填补
     medians = df[列].median()df[列].fillna(medians)
    
    • 用众数来填补
      modes = df[列].mode()df[列].fillna(modes)
    
  2. 数据的标准化:
    最大最小值标准化和均值标准化
    xi′=xi−xmin⁡xmax⁡−xmin⁡xi′=xi−xsx_{i}^{\prime}=\frac{x_{i}-x_{\min }}{x_{\max }-x_{\min }} \quad x_{i}^{\prime}=\frac{x_{i}-x}{s}xi′​=xmax​−xmin​xi​−xmin​​xi′​=sxi​−x​

       # 最大最小值标准化def max_min_std(data):m_max = data.max(axis=0)m_min = data.min(axis=0)data = (data - m_min)/(m_max-m_min)return data#均值标准化def mean_std(data):m_mean = data.mean(axis=0)m_std = data.std(axis=0)data = (data - m_mean)/m_stdreturn data
    

四、相关性分析

  1. 如何判断各因素之间是否相关?
    1. pearson相关系数(df.corr(method = ))
    r=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}r=∑i=1n​(xi​−xˉ)2∑i=1n​(yi​−yˉ​)2​∑i=1n​(xi​−xˉ)(yi​−yˉ​)​
    2. spearman,kendall相关系数
  2. 相关程度有多大?
    1. 当R>0时,正相关,R<0时,负相关
    2. R的绝对值越接近1,表示两个变量越接近线性关系
    3. R的绝对值越接近0,表示两个变量越没有相关系
    4. R的绝对值大于0.8时,视为高度相关
    5. R的绝对值介于0.5~0.8时,视为中度相关
    6. R的绝对值小于0.3时,视为不相关

五、回归分析

  1. 多元线性回归模型:
    y=β0+β1x1+β2x2+…+βpxp+εy=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{p} x_{p}+\varepsilony=β0​+β1​x1​+β2​x2​+…+βp​xp​+ε
    其中的βi\beta_{i}βi​是回归系数
from sklearn.linear_model import LinearRegression
linear = LinearRegression()
model = linear.fix(x,y)
print("截距:")
print(linear.intercept_)
print("回归系数:")
print(linear.coef_)

数学建模——数据分析方法相关推荐

  1. 【MATLAB】数学建模入门方法综述

    数学建模入门方法综述

  2. 数学建模|预测方法:马尔科夫预测

    马尔可夫链的定义 现实世界中有很多这样的现象:某一个系统在已知现在的条件下,系统未来时刻的情况只与现在有关,而与过去的历史无关,比如,研究一个商店的累计销售额,如果现在时刻的累计销售额已知,则未来某一 ...

  3. 数学建模|预测方法:灰色预测模型

    简介 灰色系统理论是由华中理工大学邓聚龙教授于1982年提出并加以发展的.二十几年来,引起了不少国内外学者的关注,得到了长足的发展.目前,在我国已经成为社会.经济.科学技术在等诸多领域进行预测.决策. ...

  4. 数学建模入门 方法及代码

    数学建模入门 数学模型 (1)原型与模型 模型是原型的替代物.(对原型提炼构造.) 模型不是原型,既简单于原型又高于原型. 模型的分类 数学模型是对特定对象,特定目的,根据特有的内在规律,做出一些必要 ...

  5. 【数学建模/数据分析论文写作】图表制作 | 数据可视化常用工具整理

    声明:由于一直"审核未通过",特此声明,涉及翻墙及擦边球的内容已经全部删除!!!请审核员明察!!!!! 首先,图表使用索引-- Sanger Box 一个在线可视化图表平台 可以做 ...

  6. 数学建模 预测方法集锦

    预测方法集锦 1.移动平均法 2.指数平滑法 3.差分指数平滑法 4.自适应滤波法 5.趋势外推(预测)法 6.回归分析 7.灰色预测 1.移动平均法 根据时间序列资料逐渐推移,依次计算包含一定项数的 ...

  7. 数学建模--综合评价方法

    综合评价方法 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮 ...

  8. 数学建模——拟合方法以及最小二乘优化问题(附黄河小浪底调水调沙例题)

    上篇博客中介绍了插值,插值的一些算法以及Matalb中的一些插值工具函数,这篇博文主要介绍拟合方法以及Matlab中的拟合函数和交互式页面. 一. 拟合方法 线性最小二乘法引入 (1) 概述:与插值相 ...

  9. 数学建模——数据分析、描述性统计

    描述性统计 描述性统计是描述数据中的最大值,最小值,中位数,均值,方差,标准差等统计量. 使用MATLAB进行描述性同济 MATLAB中对应的函数如下: MATLAB代码及结果如下: 使用EXCEL进 ...

  10. 数学建模数据分析常见套路模板

    数据分析题归纳 模型总结 1 数据预处理 1.1 数据丢失 1.2 数据异常点 1.2.1 数据异常的依据 2 数据降维 2.1 主成分分析_复杂型 2.1 主成分分析_简单型 2.2 K-means ...

最新文章

  1. airbnb_我如何在一个晚上建立音乐工作室的Airbnb
  2. jeecms系统_自定义对象流程
  3. Linux下Minigui开发环境的搭建(PC+S3C2440
  4. susan算子的运用
  5. Arduino--AS608指纹传感器
  6. 文件存取方式是哪两种python_常用的Python存储方式有哪些?
  7. Responsive Web Design
  8. mysql必知必会的数据_MySQL必知必会---数据过滤
  9. url的地址循环怎么写_电子邮件地址怎么写
  10. mysql中set和enum使用(简单介绍)
  11. 企业高效管理十大定律!「管理谋略」
  12. ajax 与ssh结合,基于AJAX和SSH集成框架的国有资产管理系统
  13. jdk8 lambda
  14. COSTDOWN Project's BSP(一)
  15. Android API与系统版本的关系
  16. Python将数字转换成大写字母
  17. 山东大学软件学院项目实训-创新实训-山大软院网络攻防靶场实验平台(七)-SQL注入字符型
  18. 【ArcGIS错误异常100问】之002:Error 000735 简化容差:值是必需的(简化线、简化面工具)
  19. Node.js 给前端带来了什么?
  20. Python学习 | 2021-11-05 Scipy聚类色彩提取

热门文章

  1. Kaggle——TMDB电影票房预测
  2. SheetJS 读取excel文件转出json
  3. 《系统集成项目管理》第四章 项目管理一般知识
  4. jeecg框架表格合计解决方案
  5. JEECG框架自定义下拉框
  6. 江苏海洋大学c语言期末考试题库,海南热带海洋学院18级C语言期末考试PAT编程题...
  7. 多导睡眠图(PSG)数据的睡眠阶段分类
  8. 单片机原理及应用 张鑫_单片机原理及应用
  9. xserver源码分析
  10. JS实现自动填写问卷【JS小工具】