总体，个体，抽样，样本，样本容量，随机变量，期望，方差，离差，残差

开博第一篇先回顾下数据分析涉及到的统计学中最基本的概念，包含了以下几个概念：总体，个体，抽样，样本，样本容量，随机变量，期望，方差，离差，残差。

1 总体

本小节所探讨的总体的概念，特指在统计学中的“总体”。统计学中的“总体”，或称统计总体（population），简称总体，指要调查或统计某一现象或事物全部数据的集合。

例如，我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的年龄，那么所有中国人的年龄，就是我们研究和统计的总体；再例如，我们要统计国内互联网从业人员的年薪，那么这些国内互联网从业人员的年薪，就是我们研究的总体；再例如，淘宝公布的“女人胸越大越败家”的调查结论，我们要分析女人胸的大小与败家的相关性，那么所有在淘宝上有购买胸罩的女人的购买记录(包括购买的胸罩的大小，以及此购买人最近一年或半年的总消费额)，就可以作为我们研究的总体。

总体有三个性质，以下作一个简单的说明，并以“女人胸越大越败家”做例子讲解。

(1) 大量性，是指需要研究的总体的数目巨大。例如研究“女人胸越大越败家”，就需要淘宝上所有购买胸罩的女人的交易记录。

(2) 同质性，是指总体中研究的每一个数据(也称个体)彼此之间有相同的性质，例如因为是淘宝公布的结论，所以研究数据都是取自淘宝，也即是在淘宝上的消费记录，而非京东；并且这些购买记录中都有消费胸罩这一项，不能拿购买裤子的记录与购买胸罩的数据分析。

(3) 变异性，是总体中研究的每一个数据之间，也是有差异的。例如每条购买记录是不同的人操作，都买了不完全相同的胸罩大小，有不同的消费额，特定的某一个数据(个体)，其总消费金额也是有差异的等等。

2 个体

个体，指需要研究的总体中一个特定的主体。

以探讨总体时举的例子，我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的平均年龄，那么总体中的一个主体，或者说一个数据，例如题主的年龄--26岁，就是在这个总体--所有中国人的年龄--中的一个样本；同理，某一个特定的互联网从业人员，如某个阿里数据分析师的工资，也是国内互联网从业人员的年薪中的一个特定的主体，也即个体；同理，每一个购买胸罩的消费记录(和前两个例子中的年龄和工资等一维数据构成一个个体不同，购买记录可能会包含多维数据，例如：胸罩大小，此购买人最近一年或半年的总消费额等，这些多维数据共同构成了一个研究的个体)，就成为了我们研究女人胸的大小与败家的相关性中的一个个体。

3 抽样

举一个例子，要检验某食品的出厂合格率，理想的做法，是打开所有总体--食品--的包装，检测总体中每一个个体--也即具体的每一盒食品--是否合格，再计算出出厂合格率。但这显然是不现实的，因为打开所有包装并检查的成本过大。

这时我们需要从总体中抽选部分个体构成一个集合(也成为样本，样本中个体的数目小于总体数目)，如果抽取的集合中的个体能较全面，无偏地反映出总体的信息，就可以认为该抽样是有效的。

抽样按照个体是否放回可以分为有放回抽样和无放回抽样，有放回抽样指从总体中抽取一个个体并记录该抽样结果后，再将该个体放回至总体中；无放回抽样指从总体中抽取一个个体并记录该抽样结果后，不再放回该个体。二者区别就在于，有放回抽样可能抽取重复的个体，而在无放回抽中不存在这种情况。

按具体的抽样方法分类，可以分为简单随机抽样，分层抽样，比例抽样，等距抽样，系统抽样等。

4 样本，样本容量

样本是总体的一部分，它是由从总体中按一定程序抽选出来的那部分总体单位--也即个体--所组成的集合。那么这个集合中，个体的数目称为样本容量。

例如统计国内互联网从业人员的年薪，我们经过抽样获得了淘宝，百度，腾讯等互联网公司从业人员的10000条薪资记录，那么这10000条薪资记录就构成了我们研究的一个样本，10000为该样本的样本容量。同理，分析女人胸的大小与败家的相关性，经过抽样获得的5000条消费记录，就构成了一个样本，5000为该样本的样本容量。

那么样本与抽样的关系，就可以理解为抽样是过程，抽得的样本是结果。最终得到的样本，也需要尽量能全面地反映出总体的特性，例如统计国内互联网从业人员的年薪，如果只统计了淘宝，百度，腾讯三家公司，肯定是不能代表整个互联网从业人员的年薪，因此可以认为该样本并不是能有效反映总体的抽样样本。

最后用一个例子作为今天讲解概念的总结：

要研究一所拥有10000名学生的大学中，学生的平均身高。我们从10000名学生中随机抽取了100名学生作为调查对象，那么：

1 总体：10000名学生的平均身高；

2 个体：某一个学生的身高，例如，学号为00001的学生的身高；

3 抽样：从10000名学生中随机抽取了100名学生作为调查对象(样本)的过程；

4 样本：抽取的100名学生的身高数据；

5 样本容量：100

5 随机变量

随机变量（random variable）表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数，每次投掷骰子出现的点数等，都是随机变量的实例。

一个随机试验可能结果（称为基本事件）的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数，即基本空间Ω中每一个点，也就是每个基本事件都有实轴上的点与之对应。例如，掷一颗骰子，它的所有可能结果是出现1点、2点、3点、4点、5点和6点，若定义X为掷一颗骰子时出现的点数，则X为一随机变量，出现1，2，3，4，5，6点时X分别取值1，2，3，4，5，6。

离散型随机变量：随机变量取值离散，只能取离散且有限个可列的数值。例如，掷一颗骰子，只能取1，2，3，4，5，6等6个自然数，不可能取到3.5这个数字的值；一个人的年龄，只能取0~150岁之间的可列数值；汽车厂一年生产的汽车数目，只能是从0到某个可数的自然数范围内。

连续型随机变量：如果随机变量可以在某个区间内取任一实数，且该区间内的实数数目趋于无限个，则称变量的取值是连续的，称为连续性随机变量。例如，统计一块田中小麦的生长高度，高度取值范围可以从[20，100]cm，在这个范围内的小麦生长高度都是可以取到的；统计18岁以上男子的身高，取值范围从[100，240]cm，在这个范围内的每个实数都可以取到，也称作连续性随机变量。

6 期望

先讨论离散型随机变量的期望。在概率论和统计学中，一个离散性随机变量的期望(Expectation，符号E，或μ)是试验中每次某个可能结果的概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等，期望就是随机试验在同样的机会下重复多次的结果相加，计算出的等概率“期望”的平均值。需要注意的是，期望值也许与每一个结果都不相等，因为期望值是该变量输出值的平均数，期望值并不一定包含于变量的输出值集合里。

离散型随机变量期望的公式化表示为如下，假设随机变量为X，取值xi(i=1,2,...,n)，对应发生概率pi(i=1,2,...,n)，E(X)为随机变量的期望：

E(X)=∑ni=1pixi

当pi(i=1,2,...,n)相等时，也即pi=1n时，E(X)可以简化为：

E(X)=1n∑ni=1xi

连续型随机变量的期望，可以使用求随机变量取值与对应概率乘积的积分求得，设X为连续性随机变量，f(x)为对应的概率密度函数，则期望E(X)为：

E(X)=∫xf(x)dx

7 方差

在概率论和数理统计中，方差(Variance，符号D，或σ2)用来度量随机变量与其数学期望(即均值)之间的偏离程度，在计算上，方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准，用来表示数据与数据中心(均值)的偏离程度，方差越大，则数据偏离中心的程度越大。同时，变量的期望相同，但方差不一定相同。

依旧以离散型随机变量为例，假设随机变量为X，取值xi(i=1,2,...,n)，μ为随机变量的数学期望(均值)，那么离散型随机变量X的方差可以表示为：

D(X)=1n∑ni=1(xi−μ)2

在计算上，如果已知随机变量X的期望E(X)，则方差的计算可以简化为：

D(X)=E(X−E(X))2=E(x2)−[E(x)]2

8 离差

离差也叫差量(符号η)，是单项数值与平均值之间的差。一般计算离差平方和来表示数据分布的集中程度，此时的离差平方和与方差的关系为：

ηi=xi−μ

η2=∑ni=1η2i=nD(X)

9 残差

残差是指观测值与预测值(拟合值)之间的差，即是实际观察值与回归估计值的差。把每个残差的平方后加起来称为残差平方和，它表示随机误差的效应。

例如，在线性回归中，每一点yi的估计值y′i和实际值yi的差的平方之和称为残差平方和。

S=∑ni=1(yi−y′i)2

转自：http://www.cnblogs.com/jackhumeng/p/4371500.html
http://www.cnblogs.com/jackhumeng/p/4379027.html

总体，个体，抽样，样本，样本容量，随机变量，期望，方差，离差，残差相关推荐

总体和个体，样本和样本值
综上: (1)试验全部可能的观察值称为总体.(注意:例如研究200个学生的身高,那么总体就是这200个同学,容量为200.并不是指身高值去除重复后的集合.) (2)总体中的每个观察值称为个体.(即20 ...
概率论-2.3 随机变量的方差与标准差(重点:(X-E(X))^2的期望)
方差:描绘随机变量X的波动程度(一种特殊的期望) 定义:D(X)=E((X-E(X))^2),记作Var(X) 离散:Sum(((xi-E(X))^2p(xi)) 连续:积分(X-E(X))^2p(x ...
二维随机变量期望公式_概率论笔记-Ch4期望与方差
本节包括: 期望:定义与性质方差与协方差:方差.标准差.协方差.相关系数.协方差矩阵.矩的定义与性质条件期望:条件期望与条件方差典型随机变量的期望方差期望离散设一离散随机变量有概率分布 ...
X, Y是独立的随机变量，方差期望已知，那么如何求 xy 的方差?
⭐预备知识参考:期望.方差.协方差.相关系数题目:x, y是独立的随机变量,方差期望已知,那么如何求 xy 的方差?
概率统计极简入门：通俗理解微积分/期望方差/正态分布前世今生(23修订版)
原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...
【读书笔记-＞统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介
总体比例与样本比例假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人"可能偏爱曼帝公司的糖球". 结果发现,在40个人中有32个人偏爱他们的口 ...
概率空间--样本--事件--随机变量--
1 基本概念概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设. 1.1 概率空间说到概率,通常是指一个具有不确定性的event发生的可能性.例如,下周二下雨的 ...
概率论 —— 相关分布以及期望方差的求法汇总
离散型 1. 两点分布(伯努利分布) 在一次试验中,事bai件A出现的概du率为P,事件A不出现的概率为q=l -p,若以X记一次试zhi验中A出现的次数,则X仅取0.I两个值. 两点分布是试验次数为 ...
分段函数的期望和方差_导数排列组合期望方差.doc
每日练习导数大题证明期望方差 1．已知函数,. (1)当时,求函数的最大值: (2)若,且对任意的恒成立,求实数的取值范围. 2．已知函数f(x)=,g(x)=ex+m,其中e=2.718-． ...
R语言使用randomForest包构建随机森林模型的步骤和流程、随机森林算法包括抽样样本（观察）和变量来创建大量的决策树（多个树，构成了森林，而且通过样本抽样和变量抽样，让多个树尽量不同）
R语言使用randomForest包中的randomForest函数构建随机森林模型的步骤和流程(Random forests).随机森林算法包括抽样样本(观察)和变量来创建大量的决策树(多个树,构成 ...

总体，个体，抽样，样本，样本容量，随机变量，期望，方差，离差，残差

总体，个体，抽样，样本，样本容量，随机变量，期望，方差，离差，残差相关推荐

最新文章

热门文章