开博第一篇先回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:总体,个体,抽样,样本,样本容量,随机变量,期望,方差,离差,残差
1 总体
本小节所探讨的总体的概念,特指在统计学中的“总体”。统计学中的“总体”,或称统计总体(population),简称总体,指要调查或统计某一现象或事物全部数据的集合。
例如,我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的年龄,那么所有中国人的年龄,就是我们研究和统计的总体;再例如,我们要统计国内互联网从业人员的年薪,那么这些国内互联网从业人员的年薪,就是我们研究的总体;再例如,淘宝公布的“女人胸越大越败家”的调查结论,我们要分析女人胸的大小与败家的相关性,那么所有在淘宝上有购买胸罩的女人的购买记录(包括购买的胸罩的大小,以及此购买人最近一年或半年的总消费额),就可以作为我们研究的总体。
 
总体有三个性质,以下作一个简单的说明,并以“女人胸越大越败家”做例子讲解。
(1) 大量性,是指需要研究的总体的数目巨大。例如研究“女人胸越大越败家”,就需要淘宝上所有购买胸罩的女人的交易记录。
(2) 同质性,是指总体中研究的每一个数据(也称个体)彼此之间有相同的性质,例如因为是淘宝公布的结论,所以研究数据都是取自淘宝,也即是在淘宝上的消费记录,而非京东;并且这些购买记录中都有消费胸罩这一项,不能拿购买裤子的记录与购买胸罩的数据分析。
(3) 变异性,是总体中研究的每一个数据之间,也是有差异的。例如每条购买记录是不同的人操作,都买了不完全相同的胸罩大小,有不同的消费额,特定的某一个数据(个体),其总消费金额也是有差异的等等。
 
2 个体
个体,指需要研究的总体中一个特定的主体。
以探讨总体时举的例子,我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的平均年龄,那么总体中的一个主体,或者说一个数据,例如题主的年龄--26岁,就是在这个总体--所有中国人的年龄--中的一个样本;同理,某一个特定的互联网从业人员,如某个阿里数据分析师的工资,也是国内互联网从业人员的年薪中的一个特定的主体,也即个体;同理,每一个购买胸罩的消费记录(和前两个例子中的年龄和工资等一维数据构成一个个体不同,购买记录可能会包含多维数据,例如:胸罩大小,此购买人最近一年或半年的总消费额等,这些多维数据共同构成了一个研究的个体),就成为了我们研究女人胸的大小与败家的相关性中的一个个体。
3 抽样
举一个例子,要检验某食品的出厂合格率,理想的做法,是打开所有总体--食品--的包装,检测总体中每一个个体--也即具体的每一盒食品--是否合格,再计算出出厂合格率。但这显然是不现实的,因为打开所有包装并检查的成本过大。
这时我们需要从总体中抽选部分个体构成一个集合(也成为样本,样本中个体的数目小于总体数目),如果抽取的集合中的个体能较全面,无偏地反映出总体的信息,就可以认为该抽样是有效的。
抽样按照个体是否放回可以分为有放回抽样和无放回抽样,有放回抽样指从总体中抽取一个个体并记录该抽样结果后,再将该个体放回至总体中;无放回抽样指从总体中抽取一个个体并记录该抽样结果后,不再放回该个体。二者区别就在于,有放回抽样可能抽取重复的个体,而在无放回抽中不存在这种情况。
按具体的抽样方法分类,可以分为简单随机抽样,分层抽样,比例抽样,等距抽样,系统抽样等。
4 样本,样本容量
样本是总体的一部分,它是由从总体中按一定程序抽选出来的那部分总体单位--也即个体--所组成的集合。那么这个集合中,个体的数目称为样本容量。
例如统计国内互联网从业人员的年薪,我们经过抽样获得了淘宝,百度,腾讯等互联网公司从业人员的10000条薪资记录,那么这10000条薪资记录就构成了我们研究的一个样本,10000为该样本的样本容量。同理,分析女人胸的大小与败家的相关性,经过抽样获得的5000条消费记录,就构成了一个样本,5000为该样本的样本容量。
那么样本与抽样的关系,就可以理解为抽样是过程,抽得的样本是结果。最终得到的样本,也需要尽量能全面地反映出总体的特性,例如统计国内互联网从业人员的年薪,如果只统计了淘宝,百度,腾讯三家公司,肯定是不能代表整个互联网从业人员的年薪,因此可以认为该样本并不是能有效反映总体的抽样样本。
最后用一个例子作为今天讲解概念的总结:
要研究一所拥有10000名学生的大学中,学生的平均身高。我们从10000名学生中随机抽取了100名学生作为调查对象,那么:
1 总体:10000名学生的平均身高;
2 个体:某一个学生的身高,例如,学号为00001的学生的身高;
3 抽样:从10000名学生中随机抽取了100名学生作为调查对象(样本)的过程;
4 样本:抽取的100名学生的身高数据;
5 样本容量:100

5 随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例。
一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。
离散型随机变量:随机变量取值离散,只能取离散且有限个可列的数值。例如,掷一颗骰子,只能取1,2,3,4,5,6等6个自然数,不可能取到3.5这个数字的值;一个人的年龄,只能取0~150岁之间的可列数值;汽车厂一年生产的汽车数目,只能是从0到某个可数的自然数范围内。
连续型随机变量:如果随机变量可以在某个区间内取任一实数,且该区间内的实数数目趋于无限个,则称变量的取值是连续的,称为连续性随机变量。例如,统计一块田中小麦的生长高度,高度取值范围可以从[20,100]cm,在这个范围内的小麦生长高度都是可以取到的;统计18岁以上男子的身高,取值范围从[100,240]cm,在这个范围内的每个实数都可以取到,也称作连续性随机变量。
 
6 期望
先讨论离散型随机变量的期望。在概率论和统计学中,一个离散性随机变量的期望(Expectation,符号E,或μ)是试验中每次某个可能结果的概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等,期望就是随机试验在同样的机会下重复多次的结果相加,计算出的等概率“期望”的平均值。需要注意的是,期望值也许与每一个结果都不相等,因为期望值是该变量输出值的平均数,期望值并不一定包含于变量的输出值集合里。

离散型随机变量期望的公式化表示为如下,假设随机变量为X,取值xi(i=1,2,...,n),对应发生概率pi(i=1,2,...,n),E(X)为随机变量的期望:

E(X)=∑ni=1pixi

pi(i=1,2,...,n)相等时,也即pi=1n时,E(X)可以简化为:
E(X)=1nni=1xi
连续型随机变量的期望,可以使用求随机变量取值与对应概率乘积的积分求得,设X为连续性随机变量,f(x)为对应的概率密度函数,则期望E(X)为:
E(X)=∫xf(x)dx
7 方差
在概率论和数理统计中,方差(Variance,符号D,或σ2)用来度量随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度,方差越大,则数据偏离中心的程度越大。同时,变量的期望相同,但方差不一定相同。
依旧以离散型随机变量为例,假设随机变量为X,取值xi(i=1,2,...,n),μ为随机变量的数学期望(均值),那么离散型随机变量X的方差可以表示为:
D(X)=1nni=1(xiμ)2
在计算上,如果已知随机变量X的期望E(X),则方差的计算可以简化为:
D(X)=E(XE(X))2=E(x2)−[E(x)]2 
8 离差
离差也叫差量(符号η),是单项数值与平均值之间的差。一般计算离差平方和来表示数据分布的集中程度,此时的离差平方和与方差的关系为:
ηi=xiμ
η2=∑ni=1η2i=nD(X)
9 残差
残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。
例如,在线性回归中,每一点yi的估计值yi和实际值yi的差的平方之和称为残差平方和。

S=∑ni=1(yiyi)2

转自:http://www.cnblogs.com/jackhumeng/p/4371500.html
          http://www.cnblogs.com/jackhumeng/p/4379027.html

总体,个体,抽样,样本,样本容量,随机变量,期望,方差,离差,残差相关推荐

  1. 总体和个体,样本和样本值

    综上: (1)试验全部可能的观察值称为总体.(注意:例如研究200个学生的身高,那么总体就是这200个同学,容量为200.并不是指身高值去除重复后的集合.) (2)总体中的每个观察值称为个体.(即20 ...

  2. 概率论-2.3 随机变量的方差与标准差(重点:(X-E(X))^2的期望)

    方差:描绘随机变量X的波动程度(一种特殊的期望) 定义:D(X)=E((X-E(X))^2),记作Var(X) 离散:Sum(((xi-E(X))^2p(xi)) 连续:积分(X-E(X))^2p(x ...

  3. 二维随机变量期望公式_概率论笔记-Ch4期望与方差

    本节包括: 期望:定义与性质 方差与协方差:方差.标准差.协方差.相关系数.协方差矩阵.矩的定义与性质 条件期望:条件期望与条件方差 典型随机变量的期望方差 期望 离散 设一离散随机变量 有概率分布 ...

  4. X, Y是独立的随机变量,方差期望已知,那么如何求 xy 的方差?

    ⭐预备知识参考:期望.方差.协方差.相关系数 题目:x, y是独立的随机变量,方差期望已知,那么如何求 xy 的方差?

  5. 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)

    原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景 本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...

  6. 【读书笔记->统计学】11-02 总体和样本的估计-总体比例、样本比例、根据总体预测样本比例概念简介

    总体比例与样本比例 假设一个情境:曼帝糖果公司再一次进行了抽样,以便利用调查结果预测:总体中有多大比例的人"可能偏爱曼帝公司的糖球". 结果发现,在40个人中有32个人偏爱他们的口 ...

  7. 概率空间--样本--事件--随机变量--

    1 基本概念 概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设. 1.1 概率空间 说到概率,通常是指一个具有不确定性的event发生的可能性.例如,下周二下雨的 ...

  8. 概率论 —— 相关分布以及期望方差的求法汇总

    离散型 1. 两点分布(伯努利分布) 在一次试验中,事bai件A出现的概du率为P,事件A不出现的概率为q=l -p,若以X记一次试zhi验中A出现的次数,则X仅取0.I两个值. 两点分布是试验次数为 ...

  9. 分段函数的期望和方差_导数排列组合期望方差.doc

    每日练习 导数大题 证明 期望方差 1.已知函数,. (1)当时,求函数的最大值: (2)若,且对任意的恒成立,求实数的取值范围. 2.已知函数f(x)=,g(x)=ex+m,其中e=2.718-. ...

  10. R语言使用randomForest包构建随机森林模型的步骤和流程、随机森林算法包括抽样样本(观察)和变量来创建大量的决策树(多个树,构成了森林,而且通过样本抽样和变量抽样,让多个树尽量不同)

    R语言使用randomForest包中的randomForest函数构建随机森林模型的步骤和流程(Random forests).随机森林算法包括抽样样本(观察)和变量来创建大量的决策树(多个树,构成 ...

最新文章

  1. 同时设置超时时间_刚入职的小菜鸡,设错了RPC超时,搞了个线上事故
  2. Gitlab禁用Gravatar头像
  3. 卸载失败_Windows 10可能的新功能-自动卸载失败的补丁更新
  4. js javaScript array 取指定元素索引、判断是否相同、重复、过滤数据
  5. python全局变量global线程安全_对python多线程与global变量详解
  6. Magento: 代替flash上传 How to disable Flash uploader in Magento (product images and
  7. properties类_受不了springboot的yml和properties配置,我扩展出了groovy配置
  8. Junit4所需jar包
  9. 中兴通讯午后复牌:A股涨停 港股盘中涨逾53%
  10. 猜你喜欢代码替换_如何在 GitHub 上找到你要的代码?
  11. php 去除变态空格字符方法,空格trim不掉问题解决思路
  12. intellij安装scala插件
  13. log函数的表达-求一个数的位数
  14. Linux设置封包报头的函数,linux系统之IP、TCP封包格式
  15. 傅里叶变换分析之掐死教程
  16. 养殖环控程序 三菱plc可以带物联网模块,7寸触摸屏程序
  17. SpaceNet 6: Dataset Release -- MSAW
  18. 『杭电1900』Gangs
  19. ngx.var与ngx.ctx的区别
  20. 网络交换机的主要作用是什么?

热门文章

  1. 【预测模型】一阶差分指数平滑预测算法
  2. springboot整合elasticsearch及热更新字典及同义词
  3. 云从科技助力智慧出行:登机安检更加“智能” | 百万人学AI评选
  4. 韩梦飞沙音乐 第三弹
  5. DNF安装MySQL,CentOS7使用dnf安装mysql的方法
  6. EffectiveC++-条款51:编写 new 和 delete 时需固守常规
  7. [时间序列分析][3]--自相关系数和偏自相关系数
  8. django1.11 mysql配置_使用Django1.11创建简单的资产管理平台
  9. 飞链云元宇宙、区块链、3D数字艺术品、AI绘画共创数字新生态
  10. 湖北移动湛颖:撇开浮夸,正视差距