Minitab 可以为具有 K 个响应类别的模型计算 K – 1 个 Logit 函数。例如,具有三个类别(1、2、3)的响应有两个 Logit 函数(参考事件 = 3):
项 | 说明 |
---|---|
gk(x) | Logit 链接函数 |
θk | 与第 k 个可区分响应类别相关的常量 |
xk | 预测变量的向量 |
bk | 与第 k 个 Logit 函数相关的系数的向量 |
描述数据集中的一组因子/协变量值。Minitab 会为每种因子/协变量模式计算事件概率、残差及其他诊断度量标准。
例如,如果数据集包含性别和民族(因子)以及年龄(协变量),则这些预测变量的组合可能包含与对象一样多的不同的协变量模式。如果数据集仅包含民族和性别两个因子,且每个因子有两个编码水平,则仅存在四种可能的因子/协变量模式。如果您将输入的数据作为频率、成功、试验或失效数据,则每行包含一个因子/协变量模式。
表示为 π。对于具有类别 1、2 和 3(参考事件 = 3)的三类别模型,条件概率为:
事件概率为:
πk(x) = P(y = k|x),k = 1, 2, 3。每个概率都是 2(p + 1) 参数的向量的函数,b' = (b'1, b'2)
对数似然函数经最大化可得到 b 的最优值。对于具有 3 个响应类别(参考事件 = 3)的模型,对数似然函数为:
通过将这些方程设置为零并对 b 求解来获得极大似然估计。
项 | 说明 |
---|---|
k | 1, 2 |
j | 0, 1, 2, ..., p |
p | 模型中系数的个数,不包括常量系数 |
πki | πk(xi),对于每个学科包含 x0i |
极大似然估计,又称参数估计。如果存在 K 个可区分响应值,则 Minitab 将为每个预测变量估计 K – 1 组参数估计。效应会因与参考事件相对的响应类别的不同而不同。每个 Logit 都能提供一个响应类别与参考事件的对数优势中存在的估计差。K – 1 个方程中的参数可以确定使用所有其他响应类别对的 Logit 参数。
使用与最大似然估计等效的迭代重加权最小二乘方法计算估计系数。1,2
渐进标准误,表示估计系数的精确度。标准误越小,估计值越精确。
有关详细信息,请参见 [1] 和 [2]。
Z 用于确定预测变量是否与响应变量显著相关。Z 的绝对值越大,表示关系越显著。P 值表示 Z 落在正态分布上的位置。
Z = βi/标准误
常量的公式为:
Z = θk /标准误
对于数量较少的样本,似然比率检验可能是更可靠的显著性检验。
用于假设检验,可帮助您确定是要否定原假设还是无法否定原假设。如果原假设成立,P 值就是获得至少与实际计算值一样极端的检验统计量的概率。P 值常用的截止值为 0.05。例如,如果检验统计量的计算的 P 值小于 0.05,您可以否定原假设。
可用于解释预测变量与响应变量之间的关系。
优势比 (q) 可以是任何非负数。优势比 1 可用作比较的基线。如果 θ = 1,则响应变量和预测变量之间没有关联。如果 θ > 1,则因子的参考水平(或连续预测变量的更高水平)的比较响应水平的几率较高。如果 θ < 1,则因子的参考水平(或连续预测变量的更高水平)的比较响应水平的几率较小。值距离 1 越远表示关联度越大。
例如,对于具有三个响应类别(1、2、3)和一个预测变量的模型,优势比可以指定结果类别 k 与用作参考事件(在本示例中为 3)的结果类别的几率。下面是具有 a 和 b 两个水平的预测变量的优势比的公式。
项 | 说明 |
---|---|
k | 结果类别 |
βi 的大样本置信区间为:
β i + Zα /2*(标准误)
要获得优势比的置信区间,请对置信区间的上下限取指数。该区间为预测变量的每个单位变化提供几率可能会落入的范围。
项 | 说明 |
---|---|
α | 显著性水平 |
维度为 p +1 × (K – 1) 的正方形矩阵。每个系数的方差在对角线单元中,每对系数的协方差在相应的非对角线单元中。方差是系数标准误的平方。
方差-协方差矩阵是渐近矩阵,来自信息矩阵的逆矩阵的最后一次迭代。二阶偏导数的矩阵可用于获得协方差矩阵。
项 | 说明 |
---|---|
p | 预测变量数 |
K | 响应中类别的数量 |
基于 Pearson 残差的汇总统计量,可表示模型对数据的拟合优度。当协变量的可区分值的数量近似于观测值的数量时,Pearson 不适用,但当同一个协变量水平上存在重复的观测值时,Pearson 适用。较大的 χ2 检验统计量和较小的 P 值表示模型无法很好地与数据拟合。
计算公式为:
其中,r = Pearson 残差,m = 第 j 个因子/协变量模式中试验的数量,π0 = 比率的假设值。
基于残差偏差的汇总统计量,可表示模型对数据的拟合优度。当协变量的可区分值的数量近似于观测值的数量时,偏差不适用,但在同一协变量水平上存在重复的观测值时,偏差适用。较大的 D 值和较小的 P 值表示模型无法很好得与数据拟合。检验的自由度为 (k - 1)*J − (p),其中,k 为响应中类别的数量,J 为可区分因子/协变量模式的数量,p 为系数的数量。
计算公式为:
D =2 Σ yik log p ik− 2 Σ yik log π ik
其中,πik = 第 k 个类别的第 i 个观测值的概率。