一、相关系数

对于坐标点呈直线趋势的两个变数,如果并不需要由X来估计Y,而仅需了解X和Y是否确有相关以及相关的性质(正相关或负相关),则首先应算出表示X和Y 相关密切程度及其性质的统计数 —— 相关系数。一般以  表示总体相关系数,r表示样本相关系数

设有一X,Y均为随机变量的双变数总体,具有N对(X,Y)。若在标有这N个(X,Y)坐标点的直角坐标平面上移动坐标轴,将X轴和Y轴分别平移到  和  上,则各个点的位置不变,而所取坐标变为(X-,Y-)。

在象限Ⅰ, (X-)>0,(Y-)>0;在象限 Ⅱ, (X-)<0,(Y-)>0;

在象限Ⅲ, (X-)<0,(Y-)<0;在象限 Ⅳ, (X-)>0,(Y-)<0;

(X,Y)总体呈正相关时,落在象限 Ⅰ,Ⅲ的点一定比落在 象限 Ⅱ,Ⅳ 的多,一定为正;

同时落在象限 Ⅰ,Ⅲ的点所占的比率愈大,此正值愈大。

(X,Y)总体呈负相关时,落在象限 Ⅱ,Ⅳ 的点一定比落在 象限 Ⅰ,Ⅲ 的多,一定为负 ;

同时落在象限 Ⅱ,Ⅳ 的点所占的比率愈大,此负值愈大;

(X,Y)总体无相关,则落在Ⅰ,Ⅱ,Ⅲ,Ⅳ的点是均匀分散的,正负相消,=0

以上说明,的值可用来度量两个变数直线相关的相关程度和性质。但,X和Y 的变异程度、所取单位以及N 的大小都会影响,为便于普遍应用,应消去这些因素的影响。

消去方法:将离均差转换成以各自的标准差单位,使成为标准化离差,再以N除之。

双变数总体的相关系数为:

此时已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,可用来比较不同双变数总体的相关程度和性质。相关系数是两个变数标准化离差的乘积的平均数。

样本相关系数:  

             

上述结果可由回归分析得出:

y 的平方和  在回归分析中分成两部分:离回归平方和  和回归平方和 。后者是由X的不同而引起的。若坐标点愈靠近回归线,则U对的比率愈大,直线相关就愈密切,又可定义为:

上式说明,当散点图上的点完全落在回归直线上时,Q=0,U=,r=1;

y变异和x完全无关时,U=0,Q=,r=0;

双变数的相关程度决定于|r|,|r|越接近于1,相关越密切,越接近于0,越可能无关。

r的显著与否与自由度有关,自由度越大,受抽样误差的影响越小,r达到显著水平的值就越小。

r和b的分母总为正值,分子部分SP,相关系数和回归系数的正负一致。

二、决定系数(determination coefficient)

定义为由x不同而引起的平方和占总平方和的比率;

也可定义为由y不同而引起的x的平方和占总平方和的比率。

决定系数和相关系数的区别:

(1)除掉r=0和|r|=1的情况,总是小于|r|。可防止对相关系数所表示的相关程度作夸张的解释。

(2)r可正可负,一律取正,取值范围[0,1]。

在相关分析中将两者结合起来是可取的,r的正负表示相关的性质,的大小表示相关程度。

三、相关系数的假设测验

(1)=0的假设测验

测验一个样本相关系数r所来自的总体相关系数  是否为0,统计假设:: 对 :.

由于抽样误差,从的总体中抽得的r并不一定为0.为了判断r代表的总体是否确有直线相关,必须测定实得r值来自总体的概率。只有在这一概率小于0.05时,才能冒5%以下的风险,推断这个样本所属的总体总是有线性相关的。

的总体中抽样,r的分布随样本容量n的不同而不同。n=2时,r的取值只有-1和1两种,其概率各为0.5;n=3时r的分布呈U型,r=0的概率密度最小,r愈趋向1,概率密度愈大;n=4时分布呈矩形,r在[-1,1]范围内具有相同的概率密度;只有当n5时分布才逐渐转钟型。由于r的取值区间只有[-1,1],r本身并不服从某个已知的理论分布。r抽样误差:

        

对于同一资料来说,线性回归的显著性和线性相关的显著性一定等价,不是偶然巧合而是必然结果。所以在实践应用上,回归的显著性已测验,相关的显著性就无需测验,反之亦然。

r的临界值:

(2)=C的假设测验

测验一个实得的相关系数r与某一指定的或理论的相关系数C是否有显著差异,统计假设为:: 对 :

时,r的抽样分布具有很大的偏态,且随n和的取值而异,将r转换为z:

(3) = 的假设测验

测验两个样本相关系数  和  分别来自的总体相关系数  和  是否相等,统计假设为: =  对  

由于r转换成z后才近似正态分布,,需进行z转化,两个z值的差数标准误为:

若原假设被接受,应将 和  合并为一个r来表示整个资料的相关情况。

合并的方法是将两样本的平方和和乘积和分别带入。合并后的r值为:

代表两个样本有共同的相关系数r。

直线回归和相关------(四)直线相关系数和决定系数(原理与公式推导)相关推荐

  1. 直线回归和相关------(五)直线回归与相关的内在关系和应用要点(回归系数相关系数关系推导)

    一.内在关系 直线回归与相关的性质或方向(正或负)相同,显著性测验等价,说明两者之间存在着必然联系.两者有以下内在联系: (1)相关系数是标准化的回归系数 回归系数b是有单位的,但若对b作消去单位的标 ...

  2. 最小二乘法、相关系数、决定系数的区别与联系

    目录 1.最小二乘法 2.相关系数与决定系数 1)相关系数 2)决定系数 3)相关系数与决定系数的区别 4)相关系数平方r2r^{2}r2与决定系数R2R^{2}R2相等    yyy和 xxx之间是 ...

  3. 统计学笔记——统计基础(协方差,相关系数,决定系数)

    好久没看统计书了,又要还给老师了. 来更新一点内容,主要是想复习复习. 协方差:协方差定义为 也可记为两个变量距平向量的内积,即为 . 协方差反映两个气象要素异常关系的平均状况.例如,如果代表前冬某一 ...

  4. python中相关系数_day-14 回归中的相关系数和决定系数概念及Python实现

    衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方 一.皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pe ...

  5. 回归中的相关系数和决定系数概念及Python实现

    衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方 一.皮尔逊相关系数 在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pe ...

  6. 2021年大数据HBase(十四):HBase的原理及其相关的工作机制

    全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 HBase的原理及其相关的工作机制 一.HBase的flus ...

  7. 计算机图形学基础(OpenGL版)实验四 直线裁剪

    计算机图形学基础 实验四 直线裁剪 1.实验目的: 了解二维图形裁剪的原理(点的裁剪.直线的裁剪.多边形的裁剪),利用VC+OpenGL实现直线的裁剪算法. 2.实验内容: (1) 理解直线裁剪的原理 ...

  8. 【转】C++面试题(四)——智能指针的原理和实现

    C++面试题(四)--智能指针的原理和实现 tanglu2004 http://blog.csdn.net/worldwindjp/   C++面试题(一).(二)和(三)都搞定的话,恭喜你来到这里, ...

  9. 高速串行总线设计基础(四)眼图的形成原理

    前言 眼图的形成原理 眼图的参数含义 眼图的模板 眼图的识别依据? 前言 眼图的测量对于高速串行总线的重要性不言而喻,眼图反映了总线通道环境的优劣,信号的好坏等等,正确的识别眼图是一项基础技能,如果具 ...

  10. 四旋翼飞行器基本知识(四旋翼飞行器结构和原理+四轴飞行diy全套入门教程)

    转载两篇日志: 第一篇<四旋翼飞行器结构和原理> 第二篇<四旋翼飞行diy全套入门教程> =========================================== ...

最新文章

  1. maven的pom.xml中repositories的作用
  2. Aspose Cells 控件如何实现数据过滤(附代码和下载地址)
  3. 递推-练习2--noi3525:上台阶
  4. [css] 清除浮动的方式有哪些及优缺点?
  5. 设置eclipse中的字体大小
  6. sqlserver 登录失败——孤立用户
  7. 服务器的运行速度突然变慢的原因一般有如下几个方面:
  8. 计算机毕业设计ssm基于HTML5的环保公益网站d4sf1系统+程序+源码+lw+远程部署
  9. 无线网络性能测试 软件,WiFi性能测试
  10. UVa 12096 The SetStack Computer 【STL】【stack】
  11. 三大视角,聊聊我眼中的广告系统
  12. Delphi使用SpreadSheet
  13. ROS机器人建模与仿真(一)——URDF模型的建立和改进
  14. 【好文推荐】mysql的优点和缺点
  15. Python中文全攻略 中文乱码 输出中文乱码
  16. 企业vi设计中服装服饰类设计原则
  17. JAVA 单张牌出牌逻辑 实现斗地主
  18. iOS开发基本功的那些事儿(未完待续)
  19. 软件测试面试题-移动端功能测试高频面试题
  20. 【云原生 | Envoy 系列】--Envoy两种健康检测方式

热门文章

  1. eric python mysql_joson 、python和mysql的使用
  2. m2增长率曲线_中国m2历年数据曲线图_中国m2历年数据
  3. Unity3D中常用的物理学公式
  4. 把数组排成最小的数(剑指offer第33题)
  5. lwj_C#_泛型使用
  6. java ipv6工具,支持通过IPv6地址和子网大小 计算开始结束地址
  7. itunes备份和恢复速度一样吗_itunes如何备份短信、电话和照片及恢复教程
  8. itunes如何备份手机所有数据
  9. 数据仓库的模型设计流程
  10. 主流编程语言的特点分析