名义 Logistic 回归的方法和公式

请选择您所选的方法或公式。

关于本主题

模型
因子/协变量模式
事件概率
对数似然
系数
系数的标准误
Z

P 值
优势比
置信区间
方差-协方差矩阵
Pearson
偏差

模型

Minitab 可以为具有 K 个响应类别的模型计算 K – 1 个 Logit 函数。例如，具有三个类别（1、2、3）的响应有两个 Logit 函数（参考事件 = 3）：

公式

表示法

项	说明
g_k(x)	Logit 链接函数
θ_k	与第 k 个可区分响应类别相关的常量
x_k	预测变量的向量
b_k	与第 k 个 Logit 函数相关的系数的向量

因子/协变量模式

描述数据集中的一组因子/协变量值。Minitab 会为每种因子/协变量模式计算事件概率、残差及其他诊断度量标准。

例如，如果数据集包含性别和民族（因子）以及年龄（协变量），则这些预测变量的组合可能包含与对象一样多的不同的协变量模式。如果数据集仅包含民族和性别两个因子，且每个因子有两个编码水平，则仅存在四种可能的因子/协变量模式。如果您将输入的数据作为频率、成功、试验或失效数据，则每行包含一个因子/协变量模式。

事件概率

表示为 π。对于具有类别 1、2 和 3（参考事件 = 3）的三类别模型，条件概率为：

公式

事件概率为：

π_k(x) = P(y = k|x)，k = 1, 2, 3。每个概率都是 2(p + 1) 参数的向量的函数，b' = (b'₁, b'₂)

对数似然

对数似然函数经最大化可得到 b 的最优值。对于具有 3 个响应类别（参考事件 = 3）的模型，对数似然函数为：

通过对每个 2(p + 1) 参数取 L(b) 的一阶偏导数找到似然方程。这些方程的一般形式为：

通过将这些方程设置为零并对 b 求解来获得极大似然估计。

表示法

项	说明
k	1, 2
j	0, 1, 2, ..., p
p	模型中系数的个数，不包括常量系数
π_ki	π_k(x_i)，对于每个学科包含 x_0i

系数

极大似然估计，又称参数估计。如果存在 K 个可区分响应值，则 Minitab 将为每个预测变量估计 K – 1 组参数估计。效应会因与参考事件相对的响应类别的不同而不同。每个 Logit 都能提供一个响应类别与参考事件的对数优势中存在的估计差。K – 1 个方程中的参数可以确定使用所有其他响应类别对的 Logit 参数。

使用与最大似然估计等效的迭代重加权最小二乘方法计算估计系数。^1,2

参考资料

D.W. Hosmer 和 S. Lemeshow (2000)。Applied Logistic Regression（应用的 Logistic 回归）。第 2 版。John Wiley & Sons, Inc.
P. McCullagh 和 J.A. Nelder (1992)。Generalized Linear Model（广义线性模型）。Chapman & Hall。

系数的标准误

渐进标准误，表示估计系数的精确度。标准误越小，估计值越精确。

有关详细信息，请参见 [1] 和 [2]。

A. Agresti (1990)。Categorical Data Analysis（类别数据分析）。John Wiley & Sons, Inc.
P. McCullagh 和 J.A. Nelder (1992)。Generalized Linear Model（广义线性模型）。Chapman & Hall。

Z

Z 用于确定预测变量是否与响应变量显著相关。Z 的绝对值越大，表示关系越显著。P 值表示 Z 落在正态分布上的位置。

公式

Z = β_i/标准误

常量的公式为：

Z = θ_k /标准误

对于数量较少的样本，似然比率检验可能是更可靠的显著性检验。

P 值

用于假设检验，可帮助您确定是要否定原假设还是无法否定原假设。如果原假设成立，P 值就是获得至少与实际计算值一样极端的检验统计量的概率。P 值常用的截止值为 0.05。例如，如果检验统计量的计算的 P 值小于 0.05，您可以否定原假设。

优势比

可用于解释预测变量与响应变量之间的关系。

优势比 (q) 可以是任何非负数。优势比 1 可用作比较的基线。如果 θ = 1，则响应变量和预测变量之间没有关联。如果 θ > 1，则因子的参考水平（或连续预测变量的更高水平）的比较响应水平的几率较高。如果 θ < 1，则因子的参考水平（或连续预测变量的更高水平）的比较响应水平的几率较小。值距离 1 越远表示关联度越大。

例如，对于具有三个响应类别（1、2、3）和一个预测变量的模型，优势比可以指定结果类别 k 与用作参考事件（在本示例中为 3）的结果类别的几率。下面是具有 a 和 b 两个水平的预测变量的优势比的公式。

公式

表示法

项	说明
k	结果类别

置信区间

公式

β_i 的大样本置信区间为：

β _i+ Z_α _/2*（标准误）

要获得优势比的置信区间，请对置信区间的上下限取指数。该区间为预测变量的每个单位变化提供几率可能会落入的范围。

表示法

项	说明
α	显著性水平

方差-协方差矩阵

维度为 p +1 × (K – 1) 的正方形矩阵。每个系数的方差在对角线单元中，每对系数的协方差在相应的非对角线单元中。方差是系数标准误的平方。

方差-协方差矩阵是渐近矩阵，来自信息矩阵的逆矩阵的最后一次迭代。二阶偏导数的矩阵可用于获得协方差矩阵。

表示法

项	说明
p	预测变量数
K	响应中类别的数量

Pearson

基于 Pearson 残差的汇总统计量，可表示模型对数据的拟合优度。当协变量的可区分值的数量近似于观测值的数量时，Pearson 不适用，但当同一个协变量水平上存在重复的观测值时，Pearson 适用。较大的 χ² 检验统计量和较小的 P 值表示模型无法很好地与数据拟合。

计算公式为：

其中，r = Pearson 残差，m = 第 j 个因子/协变量模式中试验的数量，π₀ = 比率的假设值。

偏差

基于残差偏差的汇总统计量，可表示模型对数据的拟合优度。当协变量的可区分值的数量近似于观测值的数量时，偏差不适用，但在同一协变量水平上存在重复的观测值时，偏差适用。较大的 D 值和较小的 P 值表示模型无法很好得与数据拟合。检验的自由度为 (k - 1)*J − (p)，其中，k 为响应中类别的数量，J 为可区分因子/协变量模式的数量，p 为系数的数量。

计算公式为：

D =2 Σ y_iklog p _ik− 2 Σ y_iklog π _ik

其中，π_ik= 第 k 个类别的第 i 个观测值的概率。