变量之间的关系可以分为两种类型,即函数关系和相关关系。

函数关系 functional relationship

函数关系是一一对应的确定关系。设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,其中x称为自变量,y称为因变量。

相关关系 correlation

由于影响一个变量的因素非常多,造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系,称为相关关系。相关关系具有如下特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。对这种关系不确定的变量显然不能用函数关系进行描述,但也不是无任何规律可循。通过对大量数据的观察与研究,就会发现许多变量之间确实存在着一定的客观规律。

散点图 scatter diagram

对于两个bianliangx和y,通过观察或实验可以得到若干组数据,记为(xi,yi)(i=1,2,…,n)。用坐标的横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的二维数据图称为散点图。散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。

相关系数 correlation coefficient

相关系数是根据样本数据计算的量度两个变量之间线性关系强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若根据样本数据计算的,则称为样本相关系数,记为r。

线性相关系数 linear correlation coefficient / Pearson相关系数 Pearson’s correlation coefficient

使用样本相关系数的计算公式计算的相关系数即为线性相关系数【批:线性相关系数是双变量的相关系数,用以衡量两个变量之间的相关程度】,其公式为:
r = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 ⋅ n ∑ y 2 − ( ∑ y ) 2 r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\cdot{\sqrt{n\sum{y^2}-(\sum{y})^2}}} r=n∑x2−(∑x)2 ​⋅n∑y2−(∑y)2 ​n∑xy−∑x∑y​
回归分析 regression analysis

(相关分析的目的在于测量变量之间的关系强度,它所使用的测量工具就是相关系数。)回归分析侧重于考量变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。具体来说,回归分析主要解决以下几个方面的问题:

  1. 从一组样本数据出发,确定变量之间的数学关系式。
  2. 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。
  3. 利用所求的关系式,根据一个或几个变量的取值来估计或预测两一个特定变量的取值,并给出这种估计或预测的可靠程度。

因变量 dependent variable

在回归分析中,被预测或被解释的变量称为因变量,用y表示。

自变量 independent variable

在回归分析中,用来预测或解释因变量的一个或多个变量称为自变量,用x表示。

回归模型 regression model

对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。只涉及一个自变量的一元线性回归模型可表示为:

y=β0+β1x+ε

上式称为理论回归模型,对这一模型,有以下几个主要假定:

  1. 因变量y与自变量x之间具有线性关系。【批:因为一元线性回归模型只能用来预测两个变量之间的线性相关关系】
  2. 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的。【批:即任意给定的x值都是可以取到的;对于任意一个给定的x值,y的取值都对应着一个分布】
  3. 误差项ε是一个期望值为0的随机变量,即E(ε)=0。【批:如果ε的期望值不为0的话,则说明该回归模型不是无偏估计,即该模型存在偏差】
  4. 对于所有的x值,ε的方差σ2都相同。【批:这是模型的一个假定,在计算误差项ε的标准差σ的估计(估计标准误差)时,也是在依据假定的前提下计算的;当不同的x值对应的误差项ε的方差σ2各不相同时,我们称之为非常数方差】
  5. 误差项ε是一个服从正态分布的随机变量,且独立,即ε~N(0,σ^2)。

回归方程 regression equation

根据回归模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0+β1x,也就是说,y的期望值是x的线性函数。描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。一元线性回归方程的形式为:
E ( y ) = β 0 + β 1 x E(y)=\beta_0+\beta_1x E(y)=β0​+β1​x
一元线性回归方程的图示是一条直线,因此也称为直线回归方程。其中β0是回归直线在y轴上的截距,是当x=0时y的期望值;β1是直线的斜率,它表示x每变动一个单位时,y的平均变动值。

最小二乘法 / 最小平方法 method of least squares

高斯提出用最小化图中垂直方向的离差平方和来估计参数β0和β1,根据这一方法确定模型参数β0和β1的方法称为最小二乘法,它是通过使因变量的观测值yi与yi的估计值之间的离差平方和达到最小来估计β0和β1的方法。

拟合优度 goodness of fit

回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。

判定系数 coefficient of determination

判定系数是对估计的回归方程拟合优度的度量,为回归平方和占总平方和的比例,记为R^2,其计算公式为:
R 2 = S S R S S T = ∑ ( y i ^ − y ‾ ) 2 ∑ ( y i − y ‾ ) 2 = 1 − ∑ ( y i − y i ^ ) 2 ∑ ( y i − y ‾ ) 2 R^2=\frac{SSR}{SST}=\frac{\sum({\hat{y_i}-\overline{y})^2}}{\sum{(y_i-\overline{y})^2}}=1-\frac{\sum({y_i-\hat{y_i})^2}}{\sum{(y_i-\overline{y})^2}} R2=SSTSSR​=∑(yi​−y​)2∑(yi​^​−y​)2​=1−∑(yi​−y​)2∑(yi​−yi​^​)2​
估计标准误差 standard error of estimate

估计标准误差是衡量各实际观测点在直接周围的散布状况的一个统计量,它是均方残差(MSE)的平方根,用se来表示,其计算公式为:
s e = ∑ ( y i − y i ^ ) 2 n − 2 = S S E n − 2 = M S E s_e=\sqrt{\frac{\sum{(y_i-\hat{y_i})^2}}{n-2}}=\sqrt{\frac{SSE}{n-2}}=\sqrt{MSE} se​=n−2∑(yi​−yi​^​)2​ ​=n−2SSE​ ​=MSE ​
预测 predict

回归模型经过各种检验并标明符合规定的要求后,就可以利用它来预测因变量了。所谓预测是指通过自变量x的取值来预测因变量y的取值。

点估计 point estimate

【此处为在回归分析中的定义,其他参见:第7章 参数估计】利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计,二是个别之的点估计。

区间估计 point estimate

【此处为在回归分析中的定义,其他参见:第7章 参数估计】利用估计的回归方程,对于x的一个特定值x0,求出y的一个估计值的区间就是区间估计。区间估计也有两种类型,一是置信区间估计,二是预测区间估计。

置信区间估计 confidence interval estimate

(回归分析中的)置信区间估计是对x的一个给定值x0,求出y的平均值的区间估计,这一区间称为置信区间。

预测区间估计 prediction interval estimate

(回归分析中的)预测区间估计是对x的一个给定值x0,求出y的一个个别值的区间估计,这一区间称为预测区间。

预测区间 prediction interval

残差分析 residual analysis

残差分析就是通过残差所提供的信息,分析出数据的可靠性周期性和其他干扰,用于分析模型的假定正确与否的方法。

残差 residual

残差是因变量的观测值yi与根据估计的回归方程求出的预测值之差,用e表示。它反映了用估计的回归方程去预测yi而引起的误差。

标准化误差 / Pearnson残差 / 半学生化残差 standardized residual / semi-studentized residuals

对ε正态性假定的检验,也可以通过对标准化残差的分析来完成。标准化残差是残差除以它的标准差后得到的数值,用ze表示。

《统计学》笔记:第11章 一元线性回归相关推荐

  1. [统计学笔记] (十)一元线性回归

    (十)一元线性回归 基本术语 回归这一术语最早来源于生物遗传学,由高尔顿(Francis Galton)引入. 回归的解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量.自变量)之间的 ...

  2. 【统计学笔记】第十一章 一元线性回归

    方差分析表和回归分析表的解读 各种统计量检验的决策准则 各种假设检验的假设的建立 第十一章 一元线性回归 11.1 变量间的关系的度量 11.1.1 变量间的关系 函数关系:设有两个x和y,y随x一起 ...

  3. Java编程思想学习笔记-第11章

    <?xml version="1.0" encoding="utf-8"?> Java编程思想学习笔记-第11章 Java编程思想学习笔记-第11章 ...

  4. 软考-中级-网络工程师-笔记-第11章-网络管理

    第11章 网络管理 11.1 网络管理基础 网络管理体系架构 网络管理软件 VS 网络监控软件 网络管理五大功能域:故障管理.配置管理.计费管理.性能管理和安全管理 故障管理: 网络监控系统体系结构 ...

  5. STATA:陈强教授 计量经济学及stata应用第四章 一元线性回归

    第四章 一元线性回归 一元回归的stata实例 (1)带常数项的回归 (2)不带常数项的回归 stata命令运行结果的储存与调用 4.9 总体回归函数与样本回归函数:蒙特卡洛模拟 附录(1) 随机数的 ...

  6. 线性回归分析学习笔记第一篇:一元线性回归

    目录 1.线性回归分析究竟是啥? 2. 线性回归分析原理 2.1 残差 2.2 最小二乘法 2.3 求解参数 1.线性回归分析究竟是啥? 首先要弄懂什么是回归分析: 在大数据分析中,回归分析是一种预测 ...

  7. CCNA中文笔记第11章Wide Area Networking Protocols

    作者:红头发 Chapter11 Wide Area Networking Protocols Introduction to Wide Area Networks WAN是覆盖地理范围相对较为广阔的 ...

  8. 锋利的jQuery第2版学习笔记8~11章

    第8章,用jQuery打造个性网站 网站结构 文件结构 images文件夹用于存放将要用到的图片 styles文件夹用于存放CSS样式表,个人更倾向于使用CSS文件夹 scripts文件夹用于存放jQ ...

  9. 网络专业人士笔记(7~11章)

    第7章 处理串行线路和帧中继连接故障一.处理串行线路故障 1.HDLC封装 High-level Data Link Control(HDLC)是用于串行链路的一种封装方法,HDLC是Cisco路由器 ...

最新文章

  1. 蓝桥杯 历届试题 九宫重排
  2. C语言二级指针Demo - Win32 版本
  3. bzoj 1699: [Usaco2007 Jan]Balanced Lineup排队【st表||线段树】
  4. leetcode 1744. 你能在你最喜欢的那天吃到你最喜欢的糖果吗?
  5. TCP/IP的初步理解,TCP和UDP的区别
  6. 转:XMPP协议、MQTT协议、HTTP协议、CoAP协议的基本比较
  7. Akari谜题(关灯问题)的开灯解法
  8. 从Slice_Header学习H.264(三.1)--相关细节之 POC的计算
  9. linux监控进程挂死,linux系统下实时监控进程以及定位杀死挂起的进程
  10. 计算机专业英语1700+
  11. 基于OpenCASCADE自制三维建模软件(一)介绍
  12. 兼容树莓派CM4定制产品
  13. 腾讯im及时登录注册
  14. Tornado.Cash终于,终于发币了!TORN治理机制都在这里
  15. Mysql 死锁和死锁的解决方案
  16. pyhon 函数 输入输出
  17. aspx repeater 用法_详解ASP.NET数据绑定操作中Repeater控件的用法
  18. Android端适老化与无障碍改造
  19. 内存按字节编址,地址从A4000H到CBFFFH,共有多少个字节呢?若用存储容量为32K×8bit的存储器芯片构成内存,至少需要多少片?
  20. 无线传输距离计算公式

热门文章

  1. ACM进阶计划(来自于南阳理工学院)
  2. OSG三维渲染引擎编程学习之一:“第一章:OSG介绍” 之 “1.1 OSG简介”
  3. 题目:给定一个数组并查找数组里边的元素(C实现),每日一题防止颓废~达咩~~
  4. 马云回国后,四年前的事情又被翻出来了
  5. python判断是否是闰年!
  6. 【python】判断闰年
  7. 数据分析师1.4量化交易策略的回测方法和技巧
  8. 亚信安全与新华三达成战略合作联手打造“更安全”的云数据中心
  9. 抓包那些事——四大抓包神器简介
  10. java延迟1秒钟执行_如何让java延迟几秒钟?