名义 Logistic 回归的方法和公式

请选择您所选的方法或公式。

模型

Minitab 可以为具有 K 个响应类别的模型计算 K – 1 个 Logit 函数。例如,具有三个类别(1、2、3)的响应有两个 Logit 函数(参考事件 = 3):

公式

表示法

说明
gk ( x ) Logit 链接函数
θk 与第 k 个可区分响应类别相关的常量
x k 预测变量的向量
b k 与第 k 个 Logit 函数相关的系数的向量

因子/协变量模式

描述数据集中的一组因子/协变量值。Minitab 会为每种因子/协变量模式计算事件概率、残差及其他诊断度量标准。

例如,如果数据集包含性别和民族(因子)以及年龄(协变量),则这些预测变量的组合可能包含与对象一样多的不同的协变量模式。如果数据集仅包含民族和性别两个因子,且每个因子有两个编码水平,则仅存在四种可能的因子/协变量模式。如果您将输入的数据作为频率、成功、试验或失效数据,则每行包含一个因子/协变量模式。

事件概率

表示为 π。对于具有类别 1、2 和 3(参考事件 = 3)的三类别模型,条件概率为:

公式

事件概率为:

π k (x) = P(y = k| x ),k = 1, 2, 3。每个概率都是 2(p + 1) 参数的向量的函数, b ' = ( b '1, b '2)

对数似然

对数似然函数经最大化可得到 b 的最优值。对于具有 3 个响应类别(参考事件 = 3)的模型,对数似然函数为:

通过对每个 2(p + 1) 参数取 L(b) 的一阶偏导数找到似然方程。这些方程的一般形式为:

通过将这些方程设置为零并对 b 求解来获得极大似然估计。

表示法

说明
k 1, 2
j 0, 1, 2, ......, p
p模型中系数的个数,不包括常量系数
πki πk(xi),对于每个学科包含 x0i

系数

极大似然估计,又称参数估计。如果存在 K 个可区分响应值,则 Minitab 将为每个预测变量估计 K – 1 组参数估计。效应会因与参考事件相对的响应类别的不同而不同。每个 Logit 都能提供一个响应类别与参考事件的对数优势中存在的估计差。K – 1 个方程中的参数可以确定使用所有其他响应类别对的 Logit 参数。

使用与最大似然估计等效的迭代重加权最小二乘方法计算估计系数。1,2

参考资料

  1. D.W. Hosmer 和 S. Lemeshow (2000)。Applied Logistic Regression(应用的 Logistic 回归)。第 2 版。John Wiley & Sons, Inc.
  2. P. McCullagh 和 J.A. Nelder (1992)。Generalized Linear Model(广义线性模型)。Chapman & Hall。

系数的标准误

渐进标准误,表示估计系数的精确度。标准误越小,估计值越精确。

有关详细信息,请参见 [1] 和 [2]。

  1. A. Agresti (1990)。Categorical Data Analysis(类别数据分析)。John Wiley & Sons, Inc.
  2. P. McCullagh 和 J.A. Nelder (1992)。Generalized Linear Model(广义线性模型)。Chapman & Hall。

Z

Z 用于确定预测变量是否与响应变量显著相关。Z 的绝对值越大,表示关系越显著。P 值表示 Z 落在正态分布上的位置。

公式

Z = βi/标准误

常量的公式为:

Z = θk /标准误

对于数量较少的样本,似然比率检验可能是更可靠的显著性检验。

P 值

用于假设检验,可帮助您确定是要否定原假设还是无法否定原假设。如果原假设成立,P 值就是获得至少与实际计算值一样极端的检验统计量的概率。P 值常用的截止值为 0.05。例如,如果检验统计量的计算的 P 值小于 0.05,您可以否定原假设。

优势比

可用于解释预测变量与响应变量之间的关系。

优势比 (q) 可以是任何非负数。优势比 1 可用作比较的基线。如果 θ = 1,则响应变量和预测变量之间没有关联。如果 θ > 1,则因子的参考水平(或连续预测变量的更高水平)的比较响应水平的几率较高。如果 θ < 1,则因子的参考水平(或连续预测变量的更高水平)的比较响应水平的几率较小。值距离 1 越远表示关联度越大。

例如,对于具有三个响应类别(1、2、3)和一个预测变量的模型,优势比可以指定结果类别 k 与用作参考事件(在本示例中为 3)的结果类别的几率。下面是具有 ab 两个水平的预测变量的优势比的公式。

公式

表示法

说明
k 结果类别

置信区间

公式

βi 的大样本置信区间为:

β i + Zα /2*(标准误)

要获得优势比的置信区间,请对置信区间的上下限取指数。该区间为预测变量的每个单位变化提供几率可能会落入的范围。

表示法

说明
α 显著性水平

方差-协方差矩阵

维度为 p +1 × (K – 1) 的正方形矩阵。每个系数的方差在对角线单元中,每对系数的协方差在相应的非对角线单元中。方差是系数标准误的平方。

方差-协方差矩阵是渐近矩阵,来自信息矩阵的逆矩阵的最后一次迭代。二阶偏导数的矩阵可用于获得协方差矩阵。

表示法

说明
p 预测变量数
K 响应中类别的数量

Pearson

基于 Pearson 残差的汇总统计量,可表示模型对数据的拟合优度。当协变量的可区分值的数量近似于观测值的数量时,Pearson 不适用,但当同一个协变量水平上存在重复的观测值时,Pearson 适用。较大的 χ2 检验统计量和较小的 P 值表示模型无法很好地与数据拟合。

计算公式为:

其中,r = Pearson 残差,m = 第 j 个因子/协变量模式中试验的数量,π0 = 比率的假设值。

偏差

基于残差偏差的汇总统计量,可表示模型对数据的拟合优度。当协变量的可区分值的数量近似于观测值的数量时,偏差不适用,但在同一协变量水平上存在重复的观测值时,偏差适用。较大的 D 值和较小的 P 值表示模型无法很好得与数据拟合。检验的自由度为 (k - 1)*J − (p),其中,k 为响应中类别的数量,J 为可区分因子/协变量模式的数量,p 为系数的数量。

计算公式为:

D =2 Σ yik log p ik− 2 Σ yik log π ik

其中,πik = 第 k 个类别的第 i 个观测值的概率。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策