Métodos em Ajustar modelo de Poisson

Selecione o método ou a fórmula de sua escolha.

Neste tópico

A família exponencial e funções de ligação
Padrão de fator/covariável
Como o Minitab remove preditores fortemente correlacionados da equação de regressão noAjustar modelo de Poisson

A família exponencial e funções de ligação

A extensão dos modelos lineares clássicos para modelos lineares generalizados tem duas partes: uma distribuição da família exponencial e uma função de ligação.

A família exponencial

A primeira parte estende o modelo linear às variáveis de resposta que são membros de uma grande família de distribuições chamada a família exponencial. Os membros da família exponencial de distribuições têm funções de distribuição de probabilidade para uma resposta observada nesta forma geral:

onde a(∙), b(∙) e c(∙) dependem da distribuição da variável de resposta. O parâmetro θ é um parâmetro de localização é frequentemente chamado de parâmetro canônico, e ϕ é chamado de parâmetro de dispersão. A função a(ϕ) é normalmente da forma a(ϕ)= ϕ/ ω, onde ω é uma constante conhecida ou peso que pode variar de uma observação para outra. (No Minitab, quando os pesos recebem a função a(ϕ), eles são ajustados de forma correspondente.)

Membros da família exponencial podem ser distribuições discretas ou distribuições contínuas. Exemplos de distribuições contínuas que são membros da família exponencial são as distribuições normal e gama. Exemplos de distribuições discretas que são membros da família exponencial são distribuições binomiais e a Poisson. A tabela a seguir dá as características de algumas dessas distribuições.

Distribuição	ϕ	*b(θ)*	*a(φ)*	*c(y, ϕ)*
Normal	σ²	θ²/2	φω
Binomial	1		φ/ω	-ln(y!)
Poisson	1	exp(θ)	φ/ω

A função de ligação

A segunda parte é a função de ligação. A função de ligação relaciona a média da resposta na i^ésima observação para uma preditora linear desta forma:

O modelo linear clássico é um caso especial desta fórmula geral onde a função de ligação é a função de identidade.

A escolha da função de ligação na segunda parte depende da distribuição específica da família exponencial da primeira parte. Em particular, cada distribuição na família exponencial tem uma função de ligação especial chamada de função de ligação canônica. Esta função de ligação satisfaz a equação g (μ_i) = X_i'β = θ, onde θ é o parâmetro canônico. A função de ligação canônica resulta em algumas propriedades estatísticas desejáveis do modelo. As estatísticas de qualidade do ajuste podem ser usadas para comparar ajustes usando-se diferentes funções de ligação. Determinadas funções de ligação podem ser usadas por motivos históricos ou porque elas têm um significado especial em uma disciplina. Por exemplo, uma vantagem da função de ligação logit é que ela fornece uma estimativa das razões de chances. Outro exemplo é que a função de ligação normit supões que exista uma variável subjacente que segue uma distribuição normal que é classificada em categorias binárias.

O Minitab fornece três funções de ligação para cada classe de modelos. As funções de ligação diferentes tornam possível encontrar modelos que adequadamente se ajustam a uma variedade mais ampla de dados.

Para modelos binomiais, as funções de ligação são logit, normit (também chamadas probit) e gompit (também chamada log-log complementar). Essas são o inverso da função de distribuição logística acumulada padrão (logit), o inverso da função de distribuição normal acumulada padrão (normit), e o inverso da função de distribuição Gompertz (gompit). O logit é a função de ligação canônica para modelos binomiais, assim, o logit é a função de ligação default.

Para modelos Poisson, as funções de ligação são o log natural, a raiz quadrada e a identidade. O log natural é a função de ligação canônica para modelos de Poisson, assim o log natural é a função de ligação default.

As funções de ligações são resumidas a seguir:

Modelo	Nome	Função de ligação, g(μ_i)
Binomial	logit
Binomial	normit (probit)
Binomial	gompit (log-log complementar)
Poisson	log natural
Poisson	raiz quadrada
Poisson	identidade

Notação

Termo	Descrição
μ_i	a resposta média da i^ésima linha
g(μ_i)	a função de ligação
X	o vetor das variáveis preditoras
β	o vetor dos coeficientes associados às preditoras
	a função de distribuição acumulada inversa da distribuição normal

Padrão de fator/covariável

Descreve um conjunto único de valores de fator/covariável em um conjunto de dados. O Minitab calcula probabilidades de evento, resíduos e outras medidas diagnósticas para cada padrão de fator/covariável.

Por exemplo, se um conjunto de dados inclui os fatores sexo e raça e a covariável idade, a combinação dessas preditoras pode conter tantos padrões de covariáveis diferentes quanto de indivíduos. Se um conjunto de dados só inclui os fatores raça e sexo, cada um codificado em dois níveis, só há quatro padrões de fator/covariáveis possíveis. Se você inserir seus dados como frequências, ou como sucessos, tentativas ou falhas, cada linha conterá um padrão de fator/covariável.

Como o Minitab remove preditores fortemente correlacionados da equação de regressão noAjustar modelo de Poisson

Seja r_ij o elemento na matriz de varredura atual associada a X_i e X_j.

As variáveis são inseridas ou removidas, uma de cada vez. X_k é elegível para entrada se for uma variável independente que não está atualmente no modelo com r _kk ≥ 1 (tolerância com um padrão de 0,0001) e também para cada variável X_j que está atualmente no modelo,

Para remover preditores fortemente correlacionados da equação de regressão, o Minitab executa as seguintes etapas:

O Minitab executa o método SWEEP na matriz de correlação, R, tratando X₁ .. X_p como se fossem variáveis aleatórias.
Para qualquer preditor contínuo, o Minitab compara o elemento r_kk com a tolerância; r_kk ≥ tolerância, onde k = 1 a p.
Para cada variável X_j atualmente no modelo, o Minitab verifica que (r_jj - r_jk * (r_kj / r_kk))*tolerância ≤ 1.
Observação
Onde r_kk, r_jk, r_jj são os elementos diagonais e off-diagonal correspondentes para as variáveis X_j e X_k após as operações k passo SWEEP.
Caso contrário, o preditor falhará no teste e será removido do modelo.
Observação
O valor de tolerância padrão é 8.8e - 12.

Observação

Você pode usar o subcomando TOLERANCE com o comando de sessão GZLM para forçar o Minitab a manter um preditor altamente correlacionado com outro preditor no modelo. Entretanto, diminuir a tolerância pode ser perigoso, e pode produzir resultados numericamente inexatos.