对于回归方程和线性回归方程的个人理解
前言
当你有一组数据,你想知道一些因变量(x)和自变量(y)的关系时,就需要建模,这个建模即为建立回归方程。
回归方程最常见最简单的就是一元回归,y=βx+b,其中β是系数,b是常数项。β也等于相关性系数。
回归的拟合,也就是寻找一个最优β,使得误差平方和最小。
一元总是最简单的,而实际应用则更为复杂。一般在医学里,我们不知道Y与哪些X有关系,我们都会纳入多个变量来进行临床建模和统计分析,也就是多元(线性)回归分析,这需要对回归方程理解更为深刻。
回归方程的基础理解
对于一般回归方程,y=β0+β1x+β2x+...βpx+ϵy=\beta_0+\beta_1x+\beta_2x+...\beta_px+\epsilony=β0+β1x+β2x+...βpx+ϵ,使用最小二乘法对其进行拟合。所谓的拟合,就是在高维平面,找一条线,来让其尽量通过收集到的这些观测值x。我们理想中认为会有一条线能通过所有x,即最优解,完美解释了Y和X的关系。然而事实上是,绝大部分情况,我们没办法得到这个最优解,只能得到次优。正如在机器学习中,不可能在测试集和验证集都达到100%准确率,除非是发生了验证集的数据泄露。寻找最优解的拟合,就是不断的求其偏导数。
以上是比较深入的解释,对于医学生而言,不需要知道这些先备知识,了解即可。
在回归方程中,如下公式所示:
y=β0+β1x+β2x+...βpx+ϵ→y=βx+ϵy=\beta_0+\beta_1x+\beta_2x+...\beta_px+\epsilon \rightarrow y=\beta x+\epsilony=β0+β1x+β2x+...βpx+ϵ→y=βx+ϵ
左边是展开的原始数据模式,右边是简化成公式模式。首先假设用SSresSS_{res}SSres代表其残差平方和。所谓残差平方和,就是每一个Y减去其X的差值平方,即(y1−x1)2+(y2−x2)2...(y_1-x_1)^2+(y_2-x_2)^2...(y1−x1)2+(y2−x2)2...,残差其实就是x到y的差距。这是无任何约束的回归方程。现在我们想要要建立一个符合正态分布的回归方程,并且知道这个方程是否显著,(需要注意的是,现实中没有绝对符合正态分布的数据,但是可以是近似当成正态分布,在学术界而言,一般数据能通过shapiro test就可以默认它是正态分布或近似正态分布)。那么来说,首先建立H0假设,即H0:β=bH_0: \beta = bH0:β=b需要注意,这里的β\betaβ是由β1+β2+...βp\beta_1+\beta_2+...\beta_pβ1+β2+...βp组成的一维矩阵向量,就是每个变量x的回归系数,只不过为了方便简化成这样。这个假设的意思就是说,βx\beta xβx是一个常数项,没有意义,如果我们不拒绝H0,那么就说明我们建模失败。
现在H0假设有了,开始计算验证。由于我们增加了正态分布这个约束条件,因此该模型整体的β\betaβ取值范围是变小了,导致残差平方和变大,设这个正态分布回归方程的残差平方和为SSresHSS^H_{res}SSresH,那么按理说SSresHSS^H_{res}SSresH要大于等于SSresSS_{res}SSres。因此,只要它是大于等于,我们就没办法拒绝H0,就接受H0,即这个方程的变量x和Y没有关系,建模失败。如果它是小于,并且其效应值达到了拒绝的水平,那么就拒绝H0接受H1,即该模型有意义。
当然,考虑到SSresSS_{res}SSres和SSresHSS^H_{res}SSresH是带有单位的,为了消除单位,就需要用比值比来表示,即(SSresH−SSres)/SSres(SS^H_{res} - SS_{res}) / SS_{res}(SSresH−SSres)/SSres,这个差值比就是该方程的效应量。然后进一步把自由度考虑进去,对效应量进行缩放以后,去和F检验的临界表进行对比,那么就可以得到显著性P值了。
实际操作
(后续慢慢补充具体步骤)
对于回归方程和线性回归方程的个人理解相关推荐
- matlab一元二次回归,MATLAB一元线性回归方程的计算及检验.doc
MATLAB一元线性回归方程的计算及检验 1. 从input语句键盘输入一组数据(xi,yi),i=1,2,-n. 2. 计算一元线性回归方程y=ax+b的系数a和b,用两种方法计算: 一是公式:: ...
- BP神经网络的线性本质的理解和剖析-卷积小白的随机世界
https://www.toutiao.com/a6674387399058915852/ 在完成上篇(第三十一篇)感知机的理解文章后,本想开始梳理SVM(支持向量机),不想感知机也是深度学习神经网络 ...
- 一元线性回归方程的参数估计
这篇文章详细推导了一元线性回归方程的参数解,供新手朋友参考. 假定一元线性回归方程的具体形式为 y=a+bx(1)y=a+bx \tag{1} y=a+bx(1) 现在,为确定参数a,ba,b ...
- 一元线性回归方程的建立
一元线性回归分析是处理两个变量之间关系的最简单模型,它所研究的对象是两个变量之间的线性相关关系.通过对这个模型的讨论,我们不仅可以掌握有关一元线性回归的知识,而且可以从中了解回归分析方法的基本思想.方 ...
- 回归方程带常数项matlab,请教regress命令求解不带常数项的多元线性回归方程的问题...
首先不知道这样做的对不对,我在用[b,bint,r,rint,stats]=regress(y(:,i),x);的时候,之前没有x=[ones(33,1) x];,然后希望这样求出不带常数项的多元线性 ...
- 从统计学看线性回归(2)——一元线性回归方程的显著性检验
目 录 1. σ2 的估计 2. 回归方程的显著性检验 t 检验(回归系数的检验) F 检验(回归方程的检验) 相关系数的显著性检验 样本决定系数 三种检验的关系 一.σ2 的估计 因为假设检验以及构 ...
- 线性支持向量机完全理解版
支持向量机看了很多次,这次觉得真的每个地方都理解了,还是李航的<统计学习方法>写的好!!! 线性可分支持向量机 支持向量机 就是一个分离超平面+加一个决策函数 函数间隔 几何间隔 最优化问 ...
- 2460: [BeiJing2011]元素 有关线性基的理解
题意比较简单吧,就是要你求一对魔法石的集合,并且这些东西都是线性无关的,要是集合的魔力值总和最大 总的来说就是一个线性基模板题.. 我们先将他排序,接着贪心地插入就好了,正确性可以类比于最小生成树,匈 ...
- 线代学习笔记(一)——线性代数的通俗理解
线性代数通俗理解 本篇笔记内容主要来源于45分钟线性代数通俗讲解_哔哩哔哩_bilibili,非常感谢up主的分享,这里我加入了部分自己的理解,与自己所学的知识结合完成. 基础概念 数据的维度:即数据 ...
最新文章
- 赠书 | 2021年中国数字政府发展指数排名出炉!你的家乡名列第几?
- Keras中Callback函数的使用
- Ubuntu 14.04 登陆界面循环问题解决
- centos7 服务器上的tomcat快速安装
- getDimension等区别
- php ajax 点击后刷新当前页面,ajax请求值后返回会刷新页面?
- html中的expand属性,expand的用法总结大全
- Scala enumeration
- Linux下文件查找命令find笔记
- 做个程序员身体调查,希望大家点一下!
- 企业供应链管理架构图
- postman虚拟服务器教程,postman安装与使用教程
- SAP中销售订单流程及常用事务 Get the picture
- Linux != Windows( Linux 不是 Windows)
- 【allegro 17.4软件操作保姆级教程九】布线后检查与调整
- SQL注入之什么是加密注入|二次漏洞注入|DNSlog注入
- 专科学计算机的学校哪个好,计算机专业大学排名专科生学计算机专业好吗
- vue实现table评分表
- mysql IP address 'xxx' could not be resolved
- WHUT(大学语文)1000分钟,脚本挂刷方法
热门文章
- linux 循环显示所有的sh.*文件.,linuxSHELL学习之循环嵌套、break、continue
- 使用Tushare任取场内或者场外基金历史超过2年的200个公募基金,取得过去两年的基金净值序列,通过计算夏普比率(可任意设定无风险利率),来找到19年表现最好的50个基金。
- PHP 人才信息与招聘系统mysql数据库web结构apache计算机软件工程网页wamp
- 如何证明欧几里得算法
- 2021年9月_IEEE Transactions on Image Processing_科技前言热点调查表
- android设置背景图片不填充整个_使用Glide加载图片并填充满ImageView
- django 4.0 应用程序的创建和配置(分布式布置)
- 布局区块链产业园,开启区块链发展的快车道
- 亿联CP960会议话机常见问题汇总
- stm32经典笔试题_经典面试题及解析