统计学(第6版) 贾俊平 读书笔记

第11章 一元线性回归

11.1 变量间关系的度量

变量之间的关系可分为两种类型,即函数关系和相关关系。其中,函数关系是一一确定的关系,给定一个自变量x,因变量y依确定的关系取相应的值;变量之间存在的不确定性的数量关系,则称为相关关系

相关系数

相关关系可以通过散点图和相关系数来反映。相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量,其计算公式为:

按照上述公式计算的相关系数也称为线性相关系数,或称为Pearson相关系数
r的取值范围是[-1, 1]。若0 < r ≤ 1,表明x与y之间存在正线性相关关系;若-1 ≤ r < 0,表明x与y之间存在负线性相关关系。
r具有对称性,rxy = ryx

11.2 一元线性回归

描述因变量y如何依赖自变量x和误差项ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为:

回归模型中,假定ε的期望值等于0,因此y的期望值E(y) = β0 + β1x,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程
若总体回归参数 β0和 β1是未知的,必须利用样本去估计它们。用样本统计量去代替回归方程中的未知参数 β0和 β1,这时就得到了估计的回归方程。对于一元线性回归,估计的回归方程形式为:

最小二乘法就是通过使因变量的观测值yi与估计值之间的离差平方和最小来估计β0和 β1

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。因变量y的取值是不同的,y取值的这种波动称为变差。n次观测值的总变差可由这些离差的平方和来表示,称为总平方和(SST)

总平方和可以分解为两部分:回归值与均值的离差平方和称为回归平方和(SSR);实际观测点与回归值的残差的平方和称为残差平方和或误差平方和(SSE)。回归平方和占总平方和的比例称为判定系数(R2)

判定系数R2测度了回归直线对观测数据的拟合程度。R2的取值范围是[0, 1],R2越接近1,回归的拟合度就越好。相关系数r实际上是判定系数的平方根。
判定系数可用于度量回归直线的拟合程度,而残差平方和则可以说明实际观测值与回归估计值之间的差异程度。估计标准误差就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差的平方根,用se来表示,其计算公式为:

估计标准误差是对误差项ε的标准差σ的估计,反映了用估计的回归方程预测因变量y时预测误差的大小。

11.3 利用回归方程进行预测

利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。区间估计包括置信区间估计和预测区间估计。

置信区间估计

置信区间估计是对x的一个给定值x0,求出y的平均值的区间估计。设x0为自变量x的一个特定值或给定值;E(y0)为给定x0时因变量y的平均值或期望值。一般来说,估计值不能精确地等于E(y0)。对于给定的x0,可以使用以下公式计算估计值标准差:

有了估计值的标准差之后,对于给定的x0,E(y0)在1-α置信水平下的置信区间可以表示为:

当x0=x均值时,估计值y的标准差的估计量最小,估计是最准确的。x0偏离均值越远,y的平均值的置信区间就变得越宽,估计效果越不好。

预测区间估计

预测区间估计是对x的一个给定值x0,求出y的一个个别值的区间估计。
为求出预测区间,首先必须知道用于估计的标准差,y的一个个别值y0的标准差的估计量sind计算公式如下:

对于给定的x0,y0在1-α置信水平下的预测区间可表示为:

和置信区间相比,预测区间的根号内多了一个1。因此,即使是对同一个x0,置信区间和预测区间的宽度也是不一样的,预测区间要比置信区间宽一些。两者的差别表明,估计y的平均值比预测y的一个特定值更精确

第12章 多元线性回归

12.1 多元回归模型

在实际问题中,影响因变量的因素往往有多个,这种一个因变量同多个自变量的回归问题就是多元回归。
设因变量为y,k个自变量分别为x1,x2,…,xk,描述因变量y如何依赖自变量x1,x2,…,xk和误差项ε的方程称为多元回归模型

与一元线性回归类似,多元线性回归模型的ε项有以下基本假定:误差项ε是一个期望为0的随机变量;对于自变量的所有值,ε的方差σ2都相同;误差项ε是一个服从正态分布的随机变量,且相互独立,ε~N(0, σ2)。

根据回归模型的假定,有:

上式称为多元回归方程,它描述了因变量y的期望值与自变量之间的关系。

回归方程中的参数β是未知的,需要利用样本数据去估计它们,当用样本统计量去估计回归方程中的位置参数时,就得到了估计的多元回归方程:

回归方程中样本统计量也可以根据最小二乘法求得,也就是使残差平方和最小,让残差平方和关于参数的偏导数为零可以求解。

12.2 显著性检验

线性关系检验是检验因变量y与k个自变量之间的关系是否显著,也称为总体显著性检验。检验的具体步骤如下:

  1. 提出假设。
    H0:β12=…=βk=0
    H1:β1,β2,…,βk至少有一个不等于0
  2. 计算检验系数的统计量F。
    回归平方和SSR和残差平方和SSE的计算方式同一元回归。
  3. 作出统计决策。
    给定显著性水平α, 根据分子自由度=k, 分母自由度 = n - k - 1查F分布表得Fα。若F > Fα,则拒绝原假设,即自变量与因变量的线性关系是显著的。

在回归方程通过线性关系检验后,还要对各个回归系数βi有选择地进行一次或多次检验。回归系数检验的具体步骤如下:

  1. 提出假设。对于任意参数βi( i = 1, 2, …, k )有
    H0:βi = 0
    H1:βi ≠ 0
  2. 计算检验的统计量t


  3. 作出统计决策。给定显著性水平α, 根据自由度 = n - k - 1查t分布表,得tα/2的值。若 | t | > tα/2,则拒绝原假设,自变量对因变量的影响是显著的。

12.3 多重共线性与变量选择

当回归模型中使用两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性

当出现下列情况,暗示存在多重共线性:

  1. 模型中各对自变量之间显著相关;
  2. 当模型的线性关系显著时,几乎所有回归系数βi的t检验却不显著;
  3. 回归系数的正负号与预期的相反。

当回归模型存在多重共线性时,可以将相关的自变量进行剔除。

变量选择与逐步回归

在建立回归模型时,希望尽可能用最少的变量来建立模型。选择自变量的原则通常是对统计量进行显著性检验:讲一个或一个以上的自变量引入回归模型时, 是否使残差平方和(SSE)显著减少。如果增加一个自变量使SSE显著减少,则说明有必要将这个自变量引入回归模型,否则就没有必要将这个自变量引入。

统计学——一元线性回归与多元线性回归相关推荐

  1. matlab重复线性回归,(MATLAB)一元线性回归和多元线性回归

    (MATLAB)一元线性回归和多元线性回归 (MATLAB)一元线性回归和多元线性回归 (MATLAB)一元线性回归和多元线性回归1.一元线性回归 2.多元线性回归2.1数据说明 2.2程序运行结果 ...

  2. 机器学习:回归分析—— 一元线性回归、多元线性回归的简单实现

    回归分析 回归分析概述 基本概念 可以解决的问题 基本步骤和分类 线性回归 一元线性回归 多元线性回归 回归分析概述 基本概念 回归分析是处理多变量间相关关系的一种数学方法.相关关系不同于函数关系,后 ...

  3. (MATLAB)一元线性回归和多元线性回归

    (MATLAB)一元线性回归和多元线性回归 1.一元线性回归 2.多元线性回归 2.1数据说明 2.2程序运行结果 1.一元线性回归 直接看代码,目标是建立 y y y和 x x x的函数关系,即求 ...

  4. 机器学习——一元线性回归和多元线性回归

    一元线性回归:梯度下降法 一元线性回归是线性回归的最简单的一种,即只有一个特征变量.首先是梯度下降法,这是比较经典的求法.一元线性回归通俗易懂地说,就是一元一次方程.只不过这里的斜率和截距要通过最小二 ...

  5. 一元线性回归VS多元线性回归

    一元线性回归和多元线性回归表面意思容易理解,但是结合实际的数据集,会混乱.这也是在编写线性回归博文的时候梳理知识点发现自己的不足,同时记录下来,让有疑问的同学也可以得到答案,拨开乌云. 1.在数据集上 ...

  6. 【机器学习】线性回归,多元线性回归、自回归及衡量指标

    经典线性模型自变量的线性预测就是因变量的估计值. 广义线性模型:自变量的线性预测的函数是因变量的估计值. 常见的广义线性模型有:probit模型.poisson模型.对数线性模型等.对数线性模型里有: ...

  7. 绘制线性回归和多元线性回归

    本文用C#语言实现一元线性回归和多元线性回归.结合"winform双缓冲绘制坐标轴图像"https://www.luweidong.cn/details/89 实现绘制曲线图,效果 ...

  8. 线性回归原理----简单线性回归、多元线性回归

    回归分析是用来评估变量之间关系的统计过程.用来解释自变量X与因变量Y的关系.即当自变量X发生改变时,因变量Y会如何发生改变. 线性回归是回归分析的一种,评估的自变量X与因变量Y之间是一种线性关系,当只 ...

  9. 简单线性回归和多元线性回归

    有很多初学者不知道如何用R语言做回归,这里我讲解一下简单线性回归和多元线性回归. 当回归模型包含一个因变量和一个自变量时,我们称为简单线性回归.比如:身高和体重的关系. 当有不止一个预测变量时, 则称 ...

最新文章

  1. 【网络安全】2022年第一次靶场渗透实战学习
  2. asp控件Repeater运用
  3. linux命令--sysctl
  4. python average函数详解_python 函数详解
  5. ActiveMq生产者流量控制(Producer Flow Control)
  6. l2高斯分布_浅谈为什么L2正则化有效
  7. C++ 数字 4294967295是什么意思
  8. oracle startup open ora 03113,oracle宕机,startup报错ora03113
  9. Android adb shell命令详解及实例
  10. Python单例模式的多种实现方式
  11. Excel之分类汇总,定位,组合
  12. C++ - priority_queue
  13. 牧牛区块链,区块链经济学应该关注的问题
  14. 火水未濟 (易經大意 韓長庚)
  15. 双机热备——上下层交换机负载分担
  16. machine learning分类方法的详细总结
  17. 命令行 查看自己的系统版本
  18. IT公司软件工程师薪水排名
  19. ERROR | RuntimeError: Python 3.5 or later is required
  20. docker-Login 报错 Error response from daemon

热门文章

  1. 抖音橱窗怎么添加自己的商品?抖音橱窗上架商品教程
  2. Lazada官方代运营—Lazada店群商家要“凉凉”,2021年Lazada新政策引发热议
  3. pandas 分列(二)之不规则字符串及str.extract()
  4. 生信人的20个R语言习题的答案
  5. 亚信电子最新工业以太网控制芯片解决方案介绍
  6. 智慧水务平台建设方案全流程管控方案 智慧水务信息化系统的意义_管理_数据_设备
  7. 终于找到了Visual Studio.net 2003完整高速下载
  8. Windows7管理员权限获取
  9. Win2003分区魔术师:Diskpart
  10. 《精彩绝伦的CSS》——提示(三)让元素“消失”