分析理论是统计学和数据分析中的重要概念,它们用于描述和理解数据的集中趋势、离中趋势、数据分布以及抽样理论。下面是对这些概念的简要说明:

  • 集中趋势: 均值、中位数与分位数、众数
  • 离中趋势:标准差、方差
  • 数据分布:偏态与峰态、正态分布与三大分布
  • 抽样理论:抽样误差、抽样精度 请对上述的概念进行简要的说明,并提供对应示例以及公式

1 集中趋势

1.1 概述

集中趋势是描述数据分布中心位置的统计概念,用于了解数据的典型取值或平均水平。主要包括均值、中位数和众数。

1.2 理论

(1)均值(Mean):均值是指将所有数据值相加后除以数据的总个数,用于表示数据的平均水平。均值对于正态分布的数据是一个有意义的衡量指标。计算公式如下:

均值 = (数据值1 + 数据值2 + ... + 数据值n) / n

例如1,对于数据集 [3, 5, 7, 9, 11],均值为 (3 + 5 + 7 + 9 + 11) / 5 = 7。

例如2,计算一组数据的平均年龄,即将所有年龄值相加并除以数据点的个数。

(2)中位数(Median):中位数是指将数据按照大小排序后位于中间位置的值。对于有奇数个数据的集合,中位数是排序后的中间值;对于有偶数个数据的集合,中位数是中间两个值的平均值。中位数对于存在极端值或偏态数据的情况更具鲁棒性。计算中位数的方法如下:

  • 对于奇数个数据,中位数是排序后的中间值。
  • 对于偶数个数据,中位数是排序后的中间两个值的平均值。

例如,找出一组学生考试成绩的中位数,将成绩按升序排列,找出中间位置的值。

(3)分位数(Quantiles):将一组数据按升序排列,然后分割成等分的点,如四分位数(Quartiles)将数据分为四个等分点,用于描述数据的分布情况。

例如,找出一组学生考试成绩的中位数,将成绩按升序排列,找出中间位置的值。

(4)众数(Mode):众数是指数据集中出现次数最频繁的值。一个数据集可以有一个或多个众数,或者没有众数。众数对于描述离散型数据的集中趋势很有用。

例如,对于数据集 [3, 5, 7, 5, 9, 5, 11],众数为 5。

1.3 四分位数示例

给定以下一组数据:1, 2, 3, 4, 5, 6, 7, 8, 9

我们可以按照四分位数的计算方法计算出相应的值:

(1). 首先,根据数据的个数确定位置:
   n = 9

(2). 计算Q1的位置:
   Q1的位置 = (n + 1) * 0.25
                    = 10 * 0.25
                    = 2.5

Q1的位置是一个小数,表示在排序后的数据中的位置,这意味着Q1将位于第2和第3个数据之间。

(3). 计算Q2的位置(中位数):
   Q2的位置 = (n + 1) * 0.5
            = 10 * 0.5
            = 5

Q2的位置是一个整数,表示在排序后的数据中的位置,这意味着Q2将位于第5个数据上。

(4). 计算Q3的位置:
   Q3的位置 = (n + 1) * 0.75
            = 10 * 0.75
            = 7.5

Q3的位置是一个小数,表示在排序后的数据中的位置,这意味着Q3将位于第7和第8个数据之间。

(5). 计算四分位数的值:
   Q1的值 = 数据排序后的第2个数据 + (Q1的位置的小数部分 * (数据排序后的第3个数据 - 数据排序后的第2个数据))
   Q2的值 = 数据排序后的第5个数据
   Q3的值 = 数据排序后的第7个数据 + (Q3的位置的小数部分 * (数据排序后的第8个数据 - 数据排序后的第7个数据))

将数据排序后为:1, 2, 3, 4, 5, 6, 7, 8, 9

根据上述计算方法,我们可以得到:
Q1 = 2 + (0.5 * (3 - 2)) = 2.5
Q2 = 5
Q3 = 7 + (0.5 * (8 - 7)) = 7.5

因此,给定的数据集的四分位数为:
Q1 = 2.5
Q2 = 5
Q3 = 7.5

2. 离中趋势

2.1 概述

离中趋势是描述数据分布中数据离开中心位置的程度或变异程度的统计概念。主要包括标准差和方差。

2.2 理论

(1)标准差(Standard Deviation):标准差是方差的平方根,表示数据与均值之间的差异的平均值的平方根。标准差是衡量数据集离散程度的常用指标,它的数值具有与原始数据相同的度量单位,因此更直观地反映了数据的变异程度。计算公式如下:

标准差 = 方差的平方根

例如,对于数据集 [3, 5, 7, 9, 11],标准差为 √8 ≈ 2.83。

例如,计算一组学生的考试成绩的标准差,用于衡量成绩的离散程度。

(2)方差(Variance):标准差的平方,描述数据的离散程度。方差是指数据与其均值之间差异的平方的平均值。方差衡量了数据集的离散程度,数值越大表示数据的离散程度越大,数值越小表示数据的离散程度越小。计算公式如下:

方差 = [(数据值1 - 均值)^2 + (数据值2 - 均值)^2 + ... + (数据值n - 均值)^2] / n

例如1,对于数据集 [3, 5, 7, 9, 11],均值为 7,计算方差为 [(3 - 7)^2 + (5 - 7)^2 + (7 - 7)^2 + (9 - 7)^2 + (11 - 7)^2] / 5 = 8。

例如2,计算一组学生的考试成绩的标准差,用于衡量成绩的离散程度。

3. 数据分布

3.1 概述

数据分布是指数据在数值上的分布情况,描述了数据在不同取值上的频率或概率分布。数据分布的概述包括了偏态与峰态的概念以及常见的分布类型如正态分布和三大分布。

3.2 理论

(1) 偏态(Skewness)与峰态(Kurtosis):用于描述数据分布的形状特征。偏态度量数据分布的不对称程度,正态分布的偏态为0;峰态度量数据分布的尖峰或扁平程度,正态分布的峰态为3。

例如1,分析一组股票收益率数据的偏态和峰态,来了解数据分布的形状特征。

偏态示例: 假设有一个数据集 [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],它是一个对称分布,没有偏态。偏态系数为0。

峰态示例:假设有两个数据集:数据集A [1, 1, 1, 1, 1] 和数据集B [1, 2, 3, 8, 9]。数据集A是一个平坦分布,数据集B是一个尖峰分布。对于数据集A,峰态系数接近3,而对于数据集B,峰态系数大于3。

相关公式:

(2)正态分布与三大分布:正态分布是统计学中常见的连续概率分布,具有对称的钟形曲线。三大分布指正态分布、均匀分布和指数分布,它们在统计学和数据分析中经常被使用。

例如,分析一组股票收益率数据的偏态和峰态,来了解数据分布的形状特征。

正态分布:

公式:

卡方分布:

t分布:

f分布:

4 抽样理论:

4.1 概述

抽样理论是统计学中的重要概念,用于研究如何从总体中获取样本,并通过样本推断总体的特征。

4.2 理论

(1)抽样误差(Sampling Error):在从总体中抽取样本进行统计推断时,样本与总体之间的差异引起的误差。抽样误差的大小取决于样本的大小和抽样方法的质量。

例如,从整个人口中随机抽取一部分样本进行调查,样本结果可能与整个人口存在一定的差异,这是抽样误差。

(2)抽样精度(Sampling Precision):衡量样本估计值与总体真值之间的接近程度。较小的抽样误差和较高的抽样精度表示样本估计值较接近总体真值。

例如,通过增加样本容量或改进抽样方法,减小抽样误差,提高抽样精度,使样本结果更加接近总体特征。

这些分析理论和概念在数据分析和统计推断中具有重要意义,帮助我们理解数据的特征、分布和误差。

4.3 抽样误差与精度

4.3.1 抽样平均误差计算公式:

(1)重复抽样:

  • μx² 表示样本平均值的平方
  • σ² 表示总体方差
  • n 表示样本的大小

根据这个公式,通过样本平均值的平方乘以样本大小来估计总体方差。该公式的推导基于总体方差的性质以及样本均值的性质。

需要注意的是,这个公式是一个无偏估计量,即在样本足够大的情况下,样本平均值的平方除以样本大小可以无偏估计总体方差。然而,对于小样本情况下的方差估计,可能存在一定的偏差。

 (2)不重复抽样:

  • μx² 表示校正后的样本方差
  • σ² 表示总体方差
  • n 表示样本大小
  • N 表示总体大小

根据这个公式,通过将样本方差除以 n,并乘以校正因子 ( (N - n)/ (N-1) ),可以得到更接近总体方差的估计。

这个校正因子考虑了样本的大小和总体的大小之间的比例关系,通过调整样本方差的估计,使其更准确地反映总体方差。

需要注意的是,这个公式适用于从一个大总体中抽取相对较小样本的情况,通过校正样本方差,可以更好地估计总体方差。

在实际应用中,如果总体大小 N 远大于样本大小 n,并且需要估计总体方差时,可以使用这个校正公式来得到更准确的估计结果。然而,如果总体大小与样本大小相近或样本很大时,校正因子的影响可能不太明显,可以直接使用样本方差作为总体方差的估计。

4.3.2 估计总体时抽样数目的确定:

重复抽样:

不重复抽样:

4.4 抽样示例一

示例1: 某鱼塘进行抽样调查,从鱼塘不同部位共网到150条鱼,草鱼123条,草鱼平均2公斤,标准差0.75公斤,95.45概率保证,估计草鱼平均每条的重量。(由于是不同位置,可看做重复抽样)

这里使用 μx=√(σ²/n) 公式:

根据给定的信息:

  • 样本大小 n = 123 条草鱼
  • 草鱼平均重量 μ = 2 公斤
  • 草鱼的标准差 σ = 0.75 公斤

我们可以代入这些值到公式中计算每条草鱼每条的平均重量的抽样误差:

μx = √(σ²/n) = √((0.75²) / 123) = √(0.004734) ≈ 0.0688 公斤 = 0.07 公斤

根据概率为95.45%,我们可以使用95%的置信水平,这对应于标准正态分布的临界值。

在标准正态分布中,95%的置信水平对应于标准差的1.96倍。而在这个问题中,我们的均值为2,标准差为0.07。

因此,草鱼重量的范围可以计算为:

下限 = 均值 - (标准差 * 1.96) 上限 = 均值 + (标准差 * 1.96)

下限 = 2 - (0.07 * 1.96) ≈ 1.8672 kg 上限 = 2 + (0.07 * 1.96) ≈ 2.1328 kg

因此,根据给定的概率和标准正态分布的性质,在95.45%的概率下,草鱼的重量范围为约1.8672 kg到约2.1328 kg。请注意,这是一个近似的范围估计,并基于标准正态分布的假设。在实际情况中,可能存在其他因素和不确定性。

5. 使用pandas与scipy分析

深入理解pandas

深入理解scipy

5.1 pandas

  • 均值: mean()
  • 中位数: median()
  • 分位数: quantile(q=0.25)…
  • 众数:mode()
  • 标准差: .std()
  • 方差: var()
  • 求和 sum()
  • 偏态系数: skew()
  • 峰态系数:kurt()
# 引入pandas
import pandas as pd# 读取数据
df=pd.read_csv("data/HR.csv")# 查看数据结构类型
type[df]
Out[5]:
type[       satisfaction_level  last_evaluation  ...  department  salary
0                    0.38             0.53  ...       sales     low
1                    0.80             0.86  ...       sales  medium
2                    0.11             0.88  ...       sales  medium
3                    0.72             0.87  ...       sales     low
4                    0.37             0.52  ...       sales     low...              ...  ...         ...     ...
14997                0.11             0.96  ...     support     low
14998                0.37             0.52  ...     support     low
14999                 NaN             0.52  ...     support     low
15000                 NaN        999999.00  ...        sale     low
15001                0.70             0.40  ...        sale     nme
[15002 rows x 10 columns]]# 求均值
df['satisfaction_level'].mean()
Out[6]: 0.6128393333333333# 求中位数
df['satisfaction_level'].median()
Out[7]: 0.64# 求分位数
df['satisfaction_level'].quantile(q=0.25)
Out[9]: 0.44# 求众数
df['satisfaction_level'].mode()
Out[10]:
0    0.1
Name: satisfaction_level, dtype: float64# 求标准差
df['satisfaction_level'].std()
Out[11]: 0.24862338135944925# 求方差
df['satisfaction_level'].var()
Out[12]: 0.061813585758606134# 求和
df['satisfaction_level'].sum()
Out[13]: 9192.59# 求偏态系数
df['satisfaction_level'].skew()
Out[14]: -0.47643761717258093# 求峰态系数
df['satisfaction_level'].kurt()
Out[15]: -0.6706959323886252

5.2 scipy

import scipy.stats as ssss.norm   # 生成一个是正态分布
Out[4]: <scipy.stats._continuous_distns.norm_gen at 0x1333b1f4f90>ss.norm.stats(moments='mvsk')
Out[6]: (0.0, 1.0, 0.0, 0.0)
# mvsk
# m mean
# v  var
# s skew
# k kurtss.norm.pdf(0.0)  # pdf 是输入横坐标,输出纵坐标
Out[8]: 0.3989422804014327ss.norm.ppf(0.9)  # ppf 是一个累积值,从负无穷大到某点积分是0.9的时候是多少。负无穷到正无穷是1,当时0.9的时候,是多少
Out[10]: 1.2815515655446004ss.norm.cdf(2)   # 从负无穷到2,它的累积概率是多少
Out[12]: 0.9772498680518208ss.norm.cdf(2) -ss.norm.cdf(-2) # 0.95
Out[17]: 0.9544997361036416 ss.norm.rvs(size=10)# 得到10个符合正太分布的数字
Out[19]:
array([ 1.35927484, -2.27234151, -0.53627446, -0.6049967 ,  1.04646856,-0.08009615, -2.12884619,  0.05694344, -0.90168575, -1.07511186])ss.chi2  # 卡方分布
Out[21]: <scipy.stats._continuous_distns.chi2_gen at 0x13314b53790>ss.t    # t分布
Out[21]: <scipy.stats._continuous_distns.t_gen at 0x13361be9550>ss.f  # f 分布
Out[22]: <scipy.stats._continuous_distns.f_gen at 0x13361b87e50>

(1)ss.norm: 生成一个正态分布(正态分布的概率密度函数)的对象,可以用来进行正态分布相关的计算和操作。

(2)ss.norm.stats(moments='mvsk'): 计算正态分布的统计量,包括均值(mean)、方差(variance)、偏度(skewness)和峰度(kurtosis)。

(3)ss.norm.pdf(0.0): 计算正态分布在给定横坐标(0.0)处的概率密度值(即概率密度函数值)。

(4)ss.norm.ppf(0.9): 计算正态分布累积分布函数的逆函数,即给定累积概率(0.9),返回对应的横坐标值。

(5)ss.norm.cdf(2): 计算正态分布累积分布函数的值,即从负无穷大积分到给定横坐标(2)的累积概率。

(6)ss.norm.cdf(2) - ss.norm.cdf(-2): 计算正态分布在给定区间(从-2到2)内的累积概率。

(7)ss.norm.rvs(size=10): 生成符合正态分布的随机变量,返回指定数量(10个)的随机样本。

(8)ss.chi2: 卡方分布对象,用于进行卡方分布相关的计算。

(9)ss.t: t分布对象,用于进行t分布相关的计算。

(10)ss.f: F分布对象,用于进行F分布相关的计算。

Python3数据分析与挖掘建模(4)单因子分析:集中趋势与离中趋势、数据分布与抽样相关推荐

  1. Python3数据分析与挖掘建模实战

    <div>课程地址:http://icourse8.com/Python3_shujufenxi.html</div>复制代码 第1章 课程介绍[赠送相关电子书+随堂代码] 第 ...

  2. Python3数据分析与挖掘建模(6)单因子分析:离散分布分析示例

    1. 离散分布分析示例 相关库: pandas详细用法 numpy详细用法 1.1 引入算法库 # 引入 pandas库 import pandas as pd # 引入 numpy库 import ...

  3. Python3数据分析与挖掘建模(8)多因子分析:检验

    1. 假设检验 1.1 概述 假设检验是一种统计推断方法,用于对一个或多个总体参数提出关于其取值的假设,并根据样本数据对这些假设进行检验.假设检验的目的是根据样本数据提供统计上的证据,以便对总体参数的 ...

  4. 数据分析4——挖掘建模(监督学习中的分类、回归模型,无监督学习)

    文章目录 挖掘建模 1.机器学习与建模 2.训练集.测试集.验证集 3.监督学习中的分类模型 (1)KNN (2)朴素贝叶斯--适合离散数据 (3)生成模型与判别模型 (4)决策树 安装Graphvi ...

  5. 数据分析与挖掘建模实战003:单因子探索分析与可视化001数据案例介绍

    数据案例 代码 import pandas as pd df = pd.read_csv('HR.csv') df.head(10) 后面将使用到的数据的情况

  6. 数据分析与挖掘建模实战001:导学,概述

    导学 数据分析概述 五步流程 六个集成包

  7. python数据分析与挖掘建模:交叉分析

    前言 交叉分析是属性间的数据分析.本次实验中我们主要分析离职率("left")与各部门("depar")之间的关系,各部门之间的离职率是否有明显的差异,使用到的 ...

  8. 数据分析与挖掘建模实战002:数据获取

    2-1数据获取 数据学习网站

  9. R语言书籍学习02 《R语言数据分析、挖掘建模与可视化》-第十三章 SVM模型

    SVM模型(Support Vector Machine, 支持向量机)属于一种有监督的机器学习算法,可用于离散因变量的分类和连续因变量的预测. 它可以将低维线性不可分的空间转换为高维的线性可分空间. ...

最新文章

  1. 30行代码,带你分分钟创建神经网络!(附工具教程)
  2. python for CFD(前两步问题总结)
  3. ios自带NSURLConnection下载文件
  4. A Story of One Country (Hard)(中途相遇法/启发式分裂)
  5. linux查看vtk版本,vtk在linux下的安装(12月8日更新)
  6. 从2000年到2019年
  7. 计算机技术学 试卷,计算机技术及科学技术学院试卷模板A.doc
  8. Atitit mysql 存储kv 以及php js接口目录kv_mysql.js 1Set.php 1Get.php 2CREATE TABLE `cfg` ( `k`
  9. mac 批量删除word中的空白行
  10. 计算机运行异常怎么办,电脑开机出现windows错误恢复怎么办
  11. matlab连续时间系统复频域分析,连续系统的复频域分析
  12. 散列算法比较:MD5、SHA1、SHA256有哪些区别
  13. 继美团重申严禁诱导强迫骑手注册成个体工商户后,饿了么也回应了
  14. 微信小程序中使用iconfont阿里巴巴矢量图标
  15. 请问,你心里有B树吗??(B树添加、删除操作详细图解)
  16. Android中身份证正反面、营业执照横竖版的拍摄和裁剪
  17. Python经典编程习题100例:第78例:找出年龄最大的人
  18. 零件图的尺寸标注---机械制图
  19. 带存储功能的计算器是什么样的_什么叫不带存储功能的计算器啊,我看网上说的也没个定论,考研卡西欧计算器让带吗?...
  20. Python正则re模块学习笔记

热门文章

  1. C# WebBrowser无法跳转默认浏览器问题
  2. 机器人是如何实现避障的?
  3. Linux下xl710网卡驱动,CentOS 6.x 系统安装+网卡驱动安装(Realtek PCIe GBE Family Controller for Linux)...
  4. 智方8000系医疗器械销售管理系统 v6.05 官方
  5. 华硕A456UR7500初次非完美黑苹果安装教程
  6. IBM WebBIOS配置
  7. HTML列表的三种样式
  8. MySQL5.5版本安装详细讲解
  9. 2022年辽宁审计师考试考前冲刺题及答案
  10. Dev-C++中关于函数 was not declared in this scope报错的解决方法