Chapter 5 logistic回归

5.1 logistic回归基本过程介绍

目前风暴统计平台可以非常快速准确的完成logistic回归,只需2步!

  • 选入回归自变量

  • 选择自变量筛选方式

全部是菜单式操作,完成后,界面直接给出规范三线表结果!还可以随着变量的调整实时更新结果,在数据探索初期,可以节省不少工作量!在撰写报告时,也不用再手工绘制三线表,填写数据了!统计小白也可以轻松上手!

5.2 logistic回归自变量选择

首先,选入变量,包括因变量定量自变量分类自变量

5.2.1 因变量

这里因变量建议使用0和1进行表示,0代表阴性结局(如:未患病、二分类变量中值较小的组),1代表阳性结局(如:患病或二分类结局中值较大的组)。

5.2.2 定量自变量

平台会将分类数大于5的变量自动归为定量自变量,并在选取定量自变量时,优先显示在上方,便于选取。

5.2.3 分类自变量

同理,分类数小于5类的变量归入分类变量,在选取变量时,优先显示分类变量。

假如分析中确实存在分类数大于5的分类变量,被平台归为了定量型,那么在分类自变量这里也是可以直接选取的(如上图中的”time”变量),回归结果也将按照分类数据进行展示。

接着,选择自变量的筛选方式,包括先单后多法逐步回归法

5.3 开展先单后多方法分析

根据研究需要,如果需要开展先单后多的自变量筛选方式,那么“是否开展逐步回归分析”选择”否”

P阈值自行选择,如果自变量个数过少,可以适当放宽标准,0.1、0.2也都是可以的。当选择不限制时,选入的全部自变量都将纳入多因素回归分析。

5.4 开展逐步回归方法分析

逐步回归方法,平台也提供了多种选择:双向逐步回归,向前逐步回归,向后逐步回归以及考虑到有时P值大于0.05的变量在逐步回归时也会留在模型中,新增了根据P<0.05的原则开展逐步回归

注:先单后多与逐步回归是两种不同的自变量筛选方式,先单后多主要根据单因素P阈值进行筛选;逐步回归则是通过变量的逐个纳入与剔除,以AIC值最小作为最优模型选择准则。因此有些变量P值大于预设的阈值但仍保留在逐步回归模型中也是正常的哦,想要避免这种情况的发生,可以选择”根据P<0.05筛选”的逐步回归!

5.5 下载结果

平台给出了多种结果展示,仅展示单因素回归结果仅展示多因素回归结果单因素+多因素显示在同一个表格中!

然后也可以选择小数位数,默认情况下,P值为3位小数,其他统计量为2位小数。

指定小数位数后,P值与统计量的小数位数将会统一。调整完成后,下载最终的三线表结果,平台支持下载excel或word

5.6 查看R语言分析源码

目前风暴统计还会给出R语言输出结果回归残差分析图方差膨胀因子(VIF)

有全因素模型和逐步回归法模型,本案例未进行逐步回归,因此仅展示全因素模型。


这里简单解释一下方差膨胀因子:方差膨胀因子是检验自变量间共线性问题的常用方法,如果自变量间共线性过强,会导致分析结果不稳定,还可能出现回归系数的符号与实际情况完全相反的情况。