A extensão dos modelos lineares clássicos para modelos lineares generalizados tem duas partes: uma distribuição da família exponencial e uma função de ligação.
A primeira parte estende o modelo linear às variáveis de resposta que são membros de uma grande família de distribuições chamada a família exponencial. Os membros da família exponencial de distribuições têm funções de distribuição de probabilidade para uma resposta observada nesta forma geral:
onde a(∙), b(∙) e c(∙) dependem da distribuição da variável de resposta. O parâmetro θ é um parâmetro de localização é frequentemente chamado de parâmetro canônico, e ϕ é chamado de parâmetro de dispersão. A função a(ϕ) é normalmente da forma a(ϕ)= ϕ/ ω, onde ω é uma constante conhecida ou peso que pode variar de uma observação para outra. (No Minitab, quando os pesos recebem a função a(ϕ), eles são ajustados de forma correspondente.)
Membros da família exponencial podem ser distribuições discretas ou distribuições contínuas. Exemplos de distribuições contínuas que são membros da família exponencial são as distribuições normal e gama. Exemplos de distribuições discretas que são membros da família exponencial são distribuições binomiais e a Poisson. A tabela a seguir dá as características de algumas dessas distribuições.
Distribuição | ϕ | b(θ) | a(φ) | c(y, ϕ) |
Normal | σ2 | θ2/2 | φω | |
Binomial | 1 | φ/ω | -ln(y!) | |
Poisson | 1 | exp(θ) | φ/ω |
A segunda parte é a função de ligação. A função de ligação relaciona a média da resposta na iésima observação para uma preditora linear desta forma:
O modelo linear clássico é um caso especial desta fórmula geral onde a função de ligação é a função de identidade.
A escolha da função de ligação na segunda parte depende da distribuição específica da família exponencial da primeira parte. Em particular, cada distribuição na família exponencial tem uma função de ligação especial chamada de função de ligação canônica. Esta função de ligação satisfaz à equação g (μi) = Xi'β = θ, onde θ é o parâmetro canônico. A função de ligação canônica resulta em algumas propriedades estatísticas desejáveis do modelo. As estatísticas de qualidade do ajuste podem ser usadas para comparar ajustes usando-se diferentes funções de ligação. Determinadas funções de ligação podem ser usadas por motivos históricos ou porque elas têm um significado especial em uma disciplina. Por exemplo, uma vantagem da função de ligação logit é que ela fornece uma estimativa das razões de chances. Outro exemplo é que a função de ligação normit supõe que exista uma variável subjacente que segue uma distribuição normal que é classificada em categorias binárias.
O Minitab oferece três funções de ligação. As diferentes funções de ligação possibilitam encontrar modelos que se ajustem adequadamente a uma grande variedade de dados. As funções de ligação são logit, normit (também chamado de probit) e gompit (também chamado de complemento log-log). Elas são o inverso da função de distribuição logística acumulada padrão (logit), o inverso da função de distribuição normal acumulada padrão (normit) e o inverso da função de distribuição de Gompertz (gompit). O logit é a função de ligação canônica para modelos binomiais e, por consequência, o logit é a função de ligação padrão.
Modelo | Nome | Função de ligação, g(μi) |
Binomial | logito | |
Binomial | normit (probit) | |
Binomial | gompit (complemento log-log) |
Termo | Descrição |
---|---|
μi | a resposta média da iésima linha |
g(μi) | a função de ligação |
X | o vetor das variáveis preditoras |
β | o vetor dos coeficientes associados às preditoras |
a função de distribuição acumulada inversa da distribuição normal |
Descreve um conjunto único de valores de fator/covariável em um conjunto de dados. O Minitab calcula probabilidades de evento, resíduos e outras medidas diagnósticas para cada padrão de fator/covariável.
Por exemplo, se um conjunto de dados inclui os fatores sexo e raça e a covariável idade, a combinação dessas preditoras pode conter tantos padrões de covariáveis diferentes quanto de indivíduos. Se um conjunto de dados só inclui os fatores raça e sexo, cada um codificado em dois níveis, só há quatro padrões de fator/covariáveis possíveis. Se você inserir seus dados como frequências, ou como sucessos, tentativas ou falhas, cada linha conterá um padrão de fator/covariável.
O Minitab gera uma matriz de experimento para cada experimento. A primeira coluna é uma coluna de um para o termo constante. Se o experimento foi disposto em k blocos, existem (k - 1) colunas de blocos. O Minitab usa o mesmo método de blocos de codificação que os Modelos Fatoriais. Isto é seguido por uma coluna para cada efeito principal. Os termos com fatores categóricos podem ter mais de uma coluna. Se o modelo tiver termos ao quadrado, há uma coluna para cada termo ao quadrado. A coluna para um termo ao quadrado é o produto do fator correspondente consigo mesmo. Se o modelo tem termos de interação, então há uma coluna para cada termo de interação. As interações que incluem fatores categóricos podem ter mais do que uma coluna. A coluna para um termo de interação é o produto das duas colunas que são cruzadas.
Se o Minitab remover alguns termos porque os dados não podem sustentá-los, estes termos não estão na matriz do experimento armazenado. As colunas armazenadas coincidem com os coeficientes que são exibidos.