A extensão dos modelos lineares clássicos para modelos lineares generalizados tem duas partes: uma distribuição da família exponencial e uma função de ligação.
A primeira parte estende o modelo linear às variáveis de resposta que são membros de uma grande família de distribuições chamada a família exponencial. Os membros da família exponencial de distribuições têm funções de distribuição de probabilidade para uma resposta observada nesta forma geral:
onde a(∙), b(∙) e c(∙) dependem da distribuição da variável de resposta. O parâmetro θ é um parâmetro de localização é frequentemente chamado de parâmetro canônico, e ϕ é chamado de parâmetro de dispersão. A função a(ϕ) é normalmente da forma a(ϕ)= ϕ/ ω, onde ω é uma constante conhecida ou peso que pode variar de uma observação para outra. (No Minitab, quando os pesos recebem a função a(ϕ), eles são ajustados de forma correspondente.)
Membros da família exponencial podem ser distribuições discretas ou distribuições contínuas. Exemplos de distribuições contínuas que são membros da família exponencial são as distribuições normal e gama. Exemplos de distribuições discretas que são membros da família exponencial são distribuições binomiais e a Poisson. A tabela a seguir dá as características de algumas dessas distribuições.
Distribuição | ϕ | b(θ) | a(φ) | c(y, ϕ) |
Normal | σ2 | θ2/2 | φω | |
Binomial | 1 | φ/ω | -ln(y!) | |
Poisson | 1 | exp(θ) | φ/ω |
A segunda parte é a função de ligação. A função de ligação relaciona a média da resposta na iésima observação para uma preditora linear desta forma:
O modelo linear clássico é um caso especial desta fórmula geral onde a função de ligação é a função de identidade.
A escolha da função de ligação na segunda parte depende da distribuição específica da família exponencial da primeira parte. Em particular, cada distribuição na família exponencial tem uma função de ligação especial chamada de função de ligação canônica. Esta função de ligação satisfaz a equação g (μi) = Xi'β = θ, onde θ é o parâmetro canônico. A função de ligação canônica resulta em algumas propriedades estatísticas desejáveis do modelo. As estatísticas de qualidade do ajuste podem ser usadas para comparar ajustes usando-se diferentes funções de ligação. Determinadas funções de ligação podem ser usadas por motivos históricos ou porque elas têm um significado especial em uma disciplina. Por exemplo, uma vantagem da função de ligação logit é que ela fornece uma estimativa das razões de chances. Outro exemplo é que a função de ligação normit supões que exista uma variável subjacente que segue uma distribuição normal que é classificada em categorias binárias.
O Minitab fornece três funções de ligação para cada classe de modelos. As funções de ligação diferentes tornam possível encontrar modelos que adequadamente se ajustam a uma variedade mais ampla de dados.
Para modelos binomiais, as funções de ligação são logit, normit (também chamadas probit) e gompit (também chamada log-log complementar). Essas são o inverso da função de distribuição logística acumulada padrão (logit), o inverso da função de distribuição normal acumulada padrão (normit), e o inverso da função de distribuição Gompertz (gompit). O logit é a função de ligação canônica para modelos binomiais, assim, o logit é a função de ligação default.
Para modelos Poisson, as funções de ligação são o log natural, a raiz quadrada e a identidade. O log natural é a função de ligação canônica para modelos de Poisson, assim o log natural é a função de ligação default.
As funções de ligações são resumidas a seguir:
Modelo | Nome | Função de ligação, g(μi) |
Binomial | logit | |
Binomial | normit (probit) | |
Binomial | gompit (log-log complementar) | |
Poisson | log natural | |
Poisson | raiz quadrada | |
Poisson | identidade |
Termo | Descrição |
---|---|
μi | a resposta média da iésima linha |
g(μi) | a função de ligação |
X | o vetor das variáveis preditoras |
β | o vetor dos coeficientes associados às preditoras |
a função de distribuição acumulada inversa da distribuição normal |
Descreve um conjunto único de valores de fator/covariável em um conjunto de dados. O Minitab calcula probabilidades de evento, resíduos e outras medidas diagnósticas para cada padrão de fator/covariável.
Por exemplo, se um conjunto de dados inclui os fatores sexo e raça e a covariável idade, a combinação dessas preditoras pode conter tantos padrões de covariáveis diferentes quanto de indivíduos. Se um conjunto de dados só inclui os fatores raça e sexo, cada um codificado em dois níveis, só há quatro padrões de fator/covariáveis possíveis. Se você inserir seus dados como frequências, ou como sucessos, tentativas ou falhas, cada linha conterá um padrão de fator/covariável.
Termo | Descrição |
---|---|
mi | the number of trials for the io row |
the predicted probability for the design point in a binary logistic model | |
yi | the number of events for the io row |
the inverse cumulative distribution function of the standard normal distribution for the predicted probability in a binary logistic model |
Seja rij o elemento na matriz de varredura atual associada a Xi e Xj.
As variáveis são inseridas ou removidas, uma de cada vez. Xk é elegível para entrada se for uma variável independente que não está atualmente no modelo com r kk ≥ 1 (tolerância com um padrão de 0,0001) e também para cada variável Xj que está atualmente no modelo,
Onde rkk, rjk, rjj são os elementos diagonais e off-diagonal correspondentes para as variáveis Xj e Xk após as operações k passo SWEEP.
O valor de tolerância padrão é 8.8e - 12.
Você pode usar o subcomando TOLERANCE com o comando de sessão GZLM para forçar o Minitab a manter um preditor altamente correlacionado com outro preditor no modelo. Entretanto, diminuir a tolerância pode ser perigoso, e pode produzir resultados numericamente inexatos.