【临床研究】---多元回归分析中的变量筛选问题

    • 统计方法选择的思考路径:
  • 1、不同类型变量的纳入方法
    • 1)变量的分类
    • 2)常用方法
  • 2、变量筛选方法的归纳
    • 1)变量筛选的一般流程:
    • 2)常用统计学软件:
  • 3、变量筛选遵循的基本原则
    • 1)足够的统计学效能:
    • 2)依据临床研究报告的以往经验筛选:
    • 3)结合临床知识筛选:
  • 4、变量筛选的基本共识
    • 1)结合临床专业知识:
    • 2)根据单因素分析结果筛选变量:
    • 3)根据混杂因素“Z”对试验因素或暴露因素“X”的影响大小筛选变量:
    • 4)决定最终纳入模型的变量个数:
    • 5)其他方法:

临床模型研究中,模型的构建是最基本和最关键的步骤,其中,模型应该如何如何纳入自变量,纳入哪些自变量,是至关重要的问题。
尤其在多元回归分析中(如常用的线性回归、逻辑回归、Cox比例风险回归模型),自变量的筛选常常出现混乱和错误的情况,因此本文整理了前沿的自变量筛选相关方法和规则,希望对各位同仁有所帮助:

统计方法选择的思考路径:

研究目的 ➡️ 可分析的变量 ➡️ 数据类型 ➡️ 分析方法


1、不同类型变量的纳入方法

Different values, different ways。
变量的类型,将决定纳入方法的选择策略;

1)变量的分类


其中,连续变量可以转换为分类变量进行研究。

2)常用方法

基本变量类型:
计量资料(可以测量的、有单位的,g.身高、体重、年龄等)
计数资料:二分类、多分类(可以数个数的,g.性别:可以数出男多少人、女多少人等)
等级资料(程度呈递进的,g.一些实验室检验结果:可分为-、+、++、+++)

先关注“因变量”(Y)再关注"自变量"(X1,X2,X3…)


2、变量筛选方法的归纳

1)变量筛选的一般流程:

逐个变量:单因素回归分析

分析P值:依据样本量大小情况调整P值选择范围
A、通常情况下,P值的范围在0.05-0.2之间,无统一标准
B、样本量过大,可控制p<0.05
C、如果样本量过小,可控制p<0.2

纳入规则:将单因素回归分析中p值<?(②中规则)的自变量纳入最终回归方程。

在实际研究和文献中,常使用以上选取方法。

2)常用统计学软件:

统计学家常建议使用软件中自动筛选自变量,如IBM SPSS;;SAS,SPSS,STATA,Minitab,Eviews, R Programming Language……

IBM SPSS中的Logistic回归和Cox回归模块,给出了7种变量筛选的方法:

①条件参数估计似然比检验 :(向前:条件)
②最大偏似然估计的似然比检验 :(向前:LR)
③Wald卡方检验 :(向前:Wald)
④条件参数估计似然比检验 :(向后:条件)
⑤最大偏似然估计的似然比检验 :(向后:LR)
⑥Wald卡方检验 :(向后:Wald)
⑦Enter法 :(变量全部纳入)

实际研究中,酌情考虑选取。


3、变量筛选遵循的基本原则

虽选取自变量强调因人而异、依据具体情况而定,但依然遵循一些基本准则。

1)足够的统计学效能:

依据以下经验判断该变量是否满足统计学效能的标准:

一个单变量因素至少应该需对应20个有效样本量的存在。

例如:在COX回归分析中,收集了10个与预后相关的变量。
那么:至少应该有200个患者出现了研究所定义的终点事件,如死亡。
(有效样本:出现了终点事件的样本,并不是患者量,患者量不一定为有效样本。)

2)依据临床研究报告的以往经验筛选:

不满足足够统计学效能的原则时,参考以往研究文献中的常用方法和流程: 单因素分析-----分析p值----纳入回归模型

3)结合临床知识筛选:

有些变量在单因素分析时,因为没有达到设定的变量筛选准则,因此被排除在多因素回归模型之外,但在临床上,已经确认量该变量与某种疾病的临床预后是相关的,出于临床专业角度考虑,此变量应该纳入回归模型之中。

【举例说明】
在某项前列腺癌预后因素分析的研究中,作者并未发现Gleason评分与预后显著相关,而临床知识指明的是Gleason评分与前列腺癌患者的预后显著相关,此时应该怎样做出取舍呢?
答案显而易见,对于那些已知的确定与某疾病预后显著相关的变量,即便未达到我们设定的统计学筛选标准,我们也应该纳入回归模型,这么做的考量即是从临床专业角度筛选变量。


综上所述,筛选变量时,统筹考虑统计学上的单因素分析结果➕已知临床专业知识决定 ➡️ 纳入回归方程的变量。当然,单因素分析结果和临床因素,样本量和统计效能理应综合考虑。


4、变量筛选的基本共识

变量筛选也并非毫无章法可言,回顾顶级医学杂志发表的文章,其中有关变量筛选的方法大体考虑以下5点:

1)结合临床专业知识:

医学统计一定不能脱离临床,这是最基础的考量。
根据临床知识,已知的确定与结局发生相关的变量应该纳入回归模型,而不去过多考虑其统计学参数。

2)根据单因素分析结果筛选变量:

①单因素分析P值“显著”的变量放入多元回归方程。
②所谓P值“显著”一般设定为p<0.1,或p<0.05或p<0.2
③依据样本量的大小对p值作出调整:
样本量足够大,p值调小;
样本量不足,p值调大,更保守一点。

3)根据混杂因素“Z”对试验因素或暴露因素“X”的影响大小筛选变量:

①先观察,调整“Z”与不调整“Z”,“X”对因变量“Y”的作用是否有变化。

先运行仅纳入“X”的基本模型,记录回归系数β1,再在该模型中加入“Z”,看β1变化多大,通常认为β1变化超过10%则需要调整该变量,否则不需要。

②这种方法与根据单因素分析结果筛选变量的差别在于:这里把混杂因素对试验因素的影响量化。
这种方法也并非是完美的,“Z”和“X”对“Y”的影响也同样可能受到其他混杂因素的影响。

4)决定最终纳入模型的变量个数:

“折中”考虑:统计效能 + 变量筛选
①样本量足够大,统计效能足够,可以借助软件实现自动筛选变量,并可以筛选出适合的独立影响结果的变量。
②变量很多,而样本量很少时,考虑“折中”。

5)其他方法:

根据模型参数:决定系数R^2,AIC,似然比对数、C-Statistics等等。。

【临床研究】---多元回归分析中的变量筛选问题相关推荐

  1. 回归分析中自变量共线性_具有大特征空间的回归分析中的变量选择

    回归分析中自变量共线性 介绍 (Introduction) Performing multiple regression analysis from a large set of independen ...

  2. 详解回归分析中相关变量选择的方法和构建思想——岭回归、LASSO 回归、主成分回归和偏最小二乘回归

    在线性回归模型中,其参数估计公式为 β = ( X T X ) − 1 X T y , \beta=\left(X^{T} X\right)^{-1} X^{T} y, β=

  3. 微软服务器模式表格多维,用挖掘功能实现多元回归分析

    1.Excel实现回归分析的两种方式 在如何制定办公用品的营销战略的案例中,Excel标准的多元回归分析要求解释变量不得大于15,所以首先排除了周二和周四处理率这两个解释变量.而用挖掘功能来实现多元回 ...

  4. matlab 多元回归分析 regress、 nlinfit 、stepwise函数

     1.多元线性回归     在Matlab统计工具箱中使用命令regress()实现多元线性回归,调用格式为     b=regress(y,x)     或     [b,bint,r,rint,s ...

  5. matlab 的 regress、 nlinfit 、stepwise函数多元回归分析

     1.多元线性回归     在Matlab统计工具箱中使用命令regress()实现多元线性回归,调用格式为     b=regress(y,x)     或     [b,bint,r,rint,s ...

  6. 何晓群pdf 应用回归分析第五版_暨南社会学论坛|未成年人司法中的法律实证与统计应用:多元回归分析(第三期)...

    12月28日(周一)上午,由美国Sam Houston State University刑事司法学院的Jihong Solomon Zhao教授主讲的"未成年人司法中的法律实证与统计应用:入 ...

  7. 多元线性模型分类变量方差_第三十一讲 R多元线性回归中的多重共线性和方差膨胀因子...

    在前两讲中,我们介绍了多元线性回归的概念以及多元线性回归中的交互作用.今天学习的主要内容是多元线性回归中的多重共线性和方差膨胀因子. 1. 共线性的概念 1 共线性 在多元回归中,两个或多个预测变量可 ...

  8. 线性回归分析中的哑变量

    最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑 ...

  9. Linux内核ARM构架中原子变量的底层实现研究

    前段时间重新研究了一下Linux的并发控制机制,对于内核的自旋锁.互斥锁.信号量等机制及其变体做了底层代码上的研究.因为只有从原理上理解了这些机制,在编写驱动的时候才会记得应该注意什么.这些机制基本都 ...

  10. ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介、常用方法(单变量分析并筛选—Filter/Wrapper/Embedded、多变量间相关性分析并筛选—PCC/MIC/IV)之详细攻略

    ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介.常用方法(单变量分析并筛选-Filter/Wrapper/Embedded.多变量间相关性分析并筛选-PCC/MIC/IV)之详细攻略 ...

最新文章

  1. Python爬虫常见面试题(二)
  2. P2241 统计方形(数据加强版)
  3. pandas 根据单号分类_由 “猫捉老鼠”游戏联想的用户分类问题
  4. 第四十期:十年生死两茫茫,Linux QQ突然复活!
  5. 要闻君说:IBM最新量子计算机真真像个艺术品!鹅厂正式成立了自己的技术委员会哇!联想竟然也试着做了一款智能闹钟?...
  6. scrapy —— ImagePipeline
  7. servlet ---- 请求对象
  8. 使用 Apache Hadoop 处理日志
  9. [BZOJ5006][LOJ#2290][THUWC2017]随机二分图(概率+状压DP)
  10. ActiveMQ Stomp的重新投递和死信
  11. 88.合并两个有序数组(力扣leetcode)博主可答疑该问题
  12. tp-link与台式计算机连接教程,【详细图解】TP-Link TL-WDR6510路由器电脑设置教程...
  13. Python学习随笔:PyCharm的错误检测使用及调整配置减少错误数量
  14. guzzle php,windows系统下安装使用guzzle
  15. oraoledb.oracle.11,Oracle11g链接提示未“在本地计算机注册“OraOLEDB.Oracle”解决方法...
  16. 视频监控录像机默认端口 34567 修改为37420
  17. 拉依达准则的一个c++实现
  18. C语言知识-零零散散(三)
  19. 两个整数之间的所有素数,素数个数,素数和
  20. Allegro使用总结-查看Layout基本操作:

热门文章

  1. CSS3简易表盘时钟
  2. 免费地图大战?阿里上将高德百度元帅百度地图
  3. Ubuntu下为Firefox安装Adobe Flash Player
  4. 一个简化的正弦余弦算法:正弦算法
  5. 视频直播涉及的上行带宽问题~~
  6. 图解Navicat连接、操作数据库
  7. tplink查看上网记录_Tplink路由器PPPOE拨号不能上网日志查看原因
  8. img图片在父元素中居中的方法
  9. android cue文件播放器,手机cue文件怎么打开(支持cue的安卓播放器)
  10. 强噪音环境对计算机影响,浅谈环境噪声监测中应注意的问题