直线回归和相关------(四)直线相关系数和决定系数(原理与公式推导)
一、相关系数
对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y 相关密切程度及其性质的统计数 —— 相关系数。一般以 表示总体相关系数,r表示样本相关系数。
设有一X,Y均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标平面上移动坐标轴,将X轴和Y轴分别平移到 和 上,则各个点的位置不变,而所取坐标变为(X-,Y-)。
在象限Ⅰ, (X-)>0,(Y-)>0;在象限 Ⅱ, (X-)<0,(Y-)>0;
在象限Ⅲ, (X-)<0,(Y-)<0;在象限 Ⅳ, (X-)>0,(Y-)<0;
(X,Y)总体呈正相关时,落在象限 Ⅰ,Ⅲ的点一定比落在 象限 Ⅱ,Ⅳ 的多,一定为正;
同时落在象限 Ⅰ,Ⅲ的点所占的比率愈大,此正值愈大。
(X,Y)总体呈负相关时,落在象限 Ⅱ,Ⅳ 的点一定比落在 象限 Ⅰ,Ⅲ 的多,一定为负 ;
同时落在象限 Ⅱ,Ⅳ 的点所占的比率愈大,此负值愈大;
(X,Y)总体无相关,则落在Ⅰ,Ⅱ,Ⅲ,Ⅳ的点是均匀分散的,正负相消,=0
以上说明,的值可用来度量两个变数直线相关的相关程度和性质。但,X和Y 的变异程度、所取单位以及N 的大小都会影响,为便于普遍应用,应消去这些因素的影响。
消去方法:将离均差转换成以各自的标准差单位,使成为标准化离差,再以N除之。
双变数总体的相关系数为:
此时已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,可用来比较不同双变数总体的相关程度和性质。相关系数是两个变数标准化离差的乘积的平均数。
样本相关系数:
上述结果可由回归分析得出:
y 的平方和 在回归分析中分成两部分:离回归平方和 和回归平方和 。后者是由X的不同而引起的。若坐标点愈靠近回归线,则U对的比率愈大,直线相关就愈密切,又可定义为:
上式说明,当散点图上的点完全落在回归直线上时,Q=0,U=,r=1;
y变异和x完全无关时,U=0,Q=,r=0;
双变数的相关程度决定于|r|,|r|越接近于1,相关越密切,越接近于0,越可能无关。
r的显著与否与自由度有关,自由度越大,受抽样误差的影响越小,r达到显著水平的值就越小。
r和b的分母总为正值,分子部分SP,相关系数和回归系数的正负一致。
二、决定系数(determination coefficient)
定义为由x不同而引起的平方和占总平方和的比率;
也可定义为由y不同而引起的x的平方和占总平方和的比率。
决定系数和相关系数的区别:
(1)除掉r=0和|r|=1的情况,总是小于|r|。可防止对相关系数所表示的相关程度作夸张的解释。
(2)r可正可负,一律取正,取值范围[0,1]。
在相关分析中将两者结合起来是可取的,r的正负表示相关的性质,的大小表示相关程度。
三、相关系数的假设测验
(1)=0的假设测验
测验一个样本相关系数r所来自的总体相关系数 是否为0,统计假设:: 对 :.
由于抽样误差,从的总体中抽得的r并不一定为0.为了判断r代表的总体是否确有直线相关,必须测定实得r值来自总体的概率。只有在这一概率小于0.05时,才能冒5%以下的风险,推断这个样本所属的总体总是有线性相关的。
在的总体中抽样,r的分布随样本容量n的不同而不同。n=2时,r的取值只有-1和1两种,其概率各为0.5;n=3时r的分布呈U型,r=0的概率密度最小,r愈趋向1,概率密度愈大;n=4时分布呈矩形,r在[-1,1]范围内具有相同的概率密度;只有当n5时分布才逐渐转钟型。由于r的取值区间只有[-1,1],r本身并不服从某个已知的理论分布。r抽样误差:
对于同一资料来说,线性回归的显著性和线性相关的显著性一定等价,不是偶然巧合而是必然结果。所以在实践应用上,回归的显著性已测验,相关的显著性就无需测验,反之亦然。
r的临界值:
(2)=C的假设测验
测验一个实得的相关系数r与某一指定的或理论的相关系数C是否有显著差异,统计假设为:: 对 :
时,r的抽样分布具有很大的偏态,且随n和的取值而异,将r转换为z:
(3) = 的假设测验
测验两个样本相关系数 和 分别来自的总体相关系数 和 是否相等,统计假设为:: = 对 :
由于r转换成z后才近似正态分布,,需进行z转化,两个z值的差数标准误为:
若原假设被接受,应将 和 合并为一个r来表示整个资料的相关情况。
合并的方法是将两样本的平方和和乘积和分别带入。合并后的r值为:
代表两个样本有共同的相关系数r。
直线回归和相关------(四)直线相关系数和决定系数(原理与公式推导)相关推荐
- 直线回归和相关------(五)直线回归与相关的内在关系和应用要点(回归系数相关系数关系推导)
一.内在关系 直线回归与相关的性质或方向(正或负)相同,显著性测验等价,说明两者之间存在着必然联系.两者有以下内在联系: (1)相关系数是标准化的回归系数 回归系数b是有单位的,但若对b作消去单位的标 ...
- 最小二乘法、相关系数、决定系数的区别与联系
目录 1.最小二乘法 2.相关系数与决定系数 1)相关系数 2)决定系数 3)相关系数与决定系数的区别 4)相关系数平方r2r^{2}r2与决定系数R2R^{2}R2相等 yyy和 xxx之间是 ...
- 统计学笔记——统计基础(协方差,相关系数,决定系数)
好久没看统计书了,又要还给老师了. 来更新一点内容,主要是想复习复习. 协方差:协方差定义为 也可记为两个变量距平向量的内积,即为 . 协方差反映两个气象要素异常关系的平均状况.例如,如果代表前冬某一 ...
- python中相关系数_day-14 回归中的相关系数和决定系数概念及Python实现
衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方 一.皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pe ...
- 回归中的相关系数和决定系数概念及Python实现
衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方 一.皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pe ...
- 2021年大数据HBase(十四):HBase的原理及其相关的工作机制
全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase的原理及其相关的工作机制 一.HBase的flus ...
- 计算机图形学基础(OpenGL版)实验四 直线裁剪
计算机图形学基础 实验四 直线裁剪 1.实验目的: 了解二维图形裁剪的原理(点的裁剪.直线的裁剪.多边形的裁剪),利用VC+OpenGL实现直线的裁剪算法. 2.实验内容: (1) 理解直线裁剪的原理 ...
- 【转】C++面试题(四)——智能指针的原理和实现
C++面试题(四)--智能指针的原理和实现 tanglu2004 http://blog.csdn.net/worldwindjp/ C++面试题(一).(二)和(三)都搞定的话,恭喜你来到这里, ...
- 高速串行总线设计基础(四)眼图的形成原理
前言 眼图的形成原理 眼图的参数含义 眼图的模板 眼图的识别依据? 前言 眼图的测量对于高速串行总线的重要性不言而喻,眼图反映了总线通道环境的优劣,信号的好坏等等,正确的识别眼图是一项基础技能,如果具 ...
- 四旋翼飞行器基本知识(四旋翼飞行器结构和原理+四轴飞行diy全套入门教程)
转载两篇日志: 第一篇<四旋翼飞行器结构和原理> 第二篇<四旋翼飞行diy全套入门教程> =========================================== ...
最新文章
- maven的pom.xml中repositories的作用
- Aspose Cells 控件如何实现数据过滤(附代码和下载地址)
- 递推-练习2--noi3525:上台阶
- [css] 清除浮动的方式有哪些及优缺点?
- 设置eclipse中的字体大小
- sqlserver 登录失败——孤立用户
- 服务器的运行速度突然变慢的原因一般有如下几个方面:
- 计算机毕业设计ssm基于HTML5的环保公益网站d4sf1系统+程序+源码+lw+远程部署
- 无线网络性能测试 软件,WiFi性能测试
- UVa 12096 The SetStack Computer 【STL】【stack】
- 三大视角,聊聊我眼中的广告系统
- Delphi使用SpreadSheet
- ROS机器人建模与仿真(一)——URDF模型的建立和改进
- 【好文推荐】mysql的优点和缺点
- Python中文全攻略 中文乱码 输出中文乱码
- 企业vi设计中服装服饰类设计原则
- JAVA 单张牌出牌逻辑 实现斗地主
- iOS开发基本功的那些事儿(未完待续)
- 软件测试面试题-移动端功能测试高频面试题
- 【云原生 | Envoy 系列】--Envoy两种健康检测方式