从经典线性模型扩展到广义线性模型包含两部分:指数族分布和链接函数。
第一部分会将线性模型扩展到作为大型分布族(称为指数族)成员的响应变量。分布的指数族成员具有已观测响应变量的概率分布函数,这些函数的一般形式为:
其中,a(∙)、b(∙) 和 c(∙) 依赖于响应变量的分布。参数 θ 是通常称为规范参数的位置参数,ϕ 称为离差参数。函数 a(ϕ) 通常采用 a(ϕ)= ϕ/ ω 形式,其中 ω 是可能因观测值不同而异的已知常量或权重。(在 Minitab 中,当给出权重时,函数 a(ϕ) 会相应地调整。)
指数族的成员可以是离散分布或连续分布。作为指数族成员的连续分布的示例包括正态分布和 Gamma 分布。作为指数族成员的离散分布的示例包括二项分布和 Poisson 分布。下表列出了其中一些分布的特征。
分布 | ϕ | b(θ) | a(φ) | c(y, ϕ) |
正态 | σ2 | θ2/2 | φω | |
二项 | 1 | φ/ω | -ln(y!) | |
Poisson | 1 | exp(θ) | φ/ω |
第二部分是链接函数。链接函数将第 i 个观测值中的响应变量的均值与如下形式的线性预测变量相关:
经典线性模型是此一般公式的特殊案例,其中,链接函数是恒等函数。
第二部分中链接函数的选择取决于第一部分的指数族的特定分布。特别是,指数族中的每个分布都有一个叫典范链接函数的特殊链接函数。此链接函数满足方程 g (μi) = Xi'β= θ,其中,θ 是典范参数。典范链接函数会生成一些需要的模型统计属性。可以使用拟合优度统计量比较使用不同链接函数的拟合。使用某些链接函数可能是出于历史原因或因为其在规律方面有特殊意义。例如,Logit 链接函数的优势之一就是它提供优势比的估计值。另一个示例是 Normit 链接函数,它假设存在一个基础变量,该变量遵循具有二元类别的正态分布。
Minitab 提供三种链接函数:Minitab 为每类模型提供三种链接函数。可以使用不同的链接函数确定能够充分拟合各种数据的模型。对于二项模型,链接函数是 Logit、Normit(又称 Probit)和 Gompit(又称互补对数-对数)函数。这些函数是逆累积标准 Logistic 分布函数 (Logit)、逆累积标准正态分布函数 (Normit) 和逆 Gompertz 分布函数 (Gompit)。Logit 函数是二项模型的典范链接函数,因此 Logit 函数是默认的链接函数。
模型 | 名称 | 链接函数,g(μi) |
二项 | Logit | |
二项 | Normit (Probit) | |
二项 | Gompit(互补对数 - 对数) |
项 | 说明 |
---|---|
μi | 第 i 行的均值响应 |
g(μi) | 链接函数 |
X | 预测变量的向量 |
β | 与预测变量相关的系数的向量 |
正态分布的逆累积分布函数 |
描述数据集中的一组因子/协变量值。Minitab 会为每种因子/协变量模式计算事件概率、残差及其他诊断度量标准。
例如,如果数据集包含性别和民族(因子)以及年龄(协变量),则这些预测变量的组合可能包含与对象一样多的不同的协变量模式。如果数据集仅包含民族和性别两个因子,且每个因子有两个编码水平,则仅存在四种可能的因子/协变量模式。如果您将输入的数据作为频率、成功、试验或失效数据,则每行包含一个因子/协变量模式。
Minitab 为每个设计生成一个设计矩阵。第一列是包含常量项的值列。如果将设计划分为 k 个区组,则将有 (k-1) 列用于区组。Minitab 使用的区组编码方法与在一般线性模型和因子模型中使用的区组编码方法相同。之后,每个主效应一列。包含类别因子的项可能会有多列。如果模型有平方项,则每个平方项一列。平方项的列是相应因子与其自身的乘积。如果模型有交互作用项,则每个交互作用项一列。包含类别因子的交互作用可能会有多列。交互作用项的列是两个交叉列的乘积。
如果 Minitab 删除了数据不支持的一些项,则这些项不会出现在所存储的设计矩阵中。所存储的列与所显示的系数匹配。