Coeficientes e equação de regressão para Ajustar modelo logístico binário

Encontre definições e orientações interpretação para cada estatística e gráfico fornecido na tabela Coeficientes e na equação de regressão.

Coef

Um coeficiente de regressão descreve o tamanho e a direção da relação entre um preditor e variável de resposta. Os coeficientes são os números pelos quais os valores do termo são multiplicados em uma equação de regressão.

Interpretação

Use o coeficiente para determinar se uma mudança na variável preditora pode tornar o evento mais ou menos provável. O coeficiente estimado para uma preditora representa a mudança na função de ligação para cada mudança de unidade na preditora, enquanto as outras preditoras no modelo são consideradas constantes. A relação entre o coeficiente e a probabilidade depende de diversos aspectos da análise, incluindo a função de ligação, o evento de referência da resposta e os níveis de referência das preditoras categóricas que estão no modelo. Geralmente, os coeficientes positivos tornam o evento mais provável e os coeficientes negativos tornam o evento menos provável. Um coeficiente estimado próximo de 0 sugere que o efeito da preditora é pequeno.

A interpretação dos coeficientes estimados para preditoras categóricas depende do nível de referência da preditora. Coeficientes positivos indicam que o primeiro evento é mais provável no nível da preditora do que no nível de referência do fator. Os coeficientes negativos indicam que o evento é mais provável no nível da preditora do que no nível de referência.

Interpretação da função de ligação logit

A função de ligação logit fornece a interpretação mais natural dos coeficientes estimados e é, portanto, a ligação padrão no Minitab. A interpretação usa o fato de que as chances de um evento de referência sejam P(evento)/P(não evento) e supõe que as outras preditoras permanecem constantes. Quanto maiores as chances do log, mais provável é o evento de referência. Portanto, os coeficientes positivos indicam que o evento torna-se mais provável e coeficientes negativos indicam que o evento torna-se menos provável. Segue-se um resumo de interpretações para diferentes tipos de preditoras.

Preditoras contínuas
O coeficientes de uma preditora contínua é a mudança estimada no log natural das chances de o evento de referência para cada unidade aumentar na preditora. Por exemplo, se o coeficiente de tempo em segundos é 1,4, então o log natural das chances aumenta em 1,4 para cada segundo adicional.
Os coeficientes estimados também podem ser usados para calcular as razões de chances ou a razão entre duas chances. Para calcular a razão de chances, exponencie o coeficiente de uma preditora. O resultado é a razão de chances para quando a preditora é x+1, comparado a quando a preditora é x. Por exemplo, se a razão de chances para massa em quilogramas é 0,95, para cada quilograma adicional, a probabilidade do evento diminui em cerca de 5%.
Para preditoras contínuas, a interpretação das chances pode ser mais significativa do que a interpretação das razões de chances.
Preditoras categóricas com codificação 1, 0
O coeficiente de uma preditora contínua é a mudança estimada no log natural das chances quando você muda do nível de referência para o nível de coeficiente. Por exemplo, uma variável categórica tem os níveis Rápido e Lento, e o nível de referência é Lento. Se o coeficiente para Rápido é 1,3, então uma mudança na variável de Lento para Rápido aumenta o log natural das chances do evento em 1,3.
Os coeficientes estimados também podem ser usados para calcular as razões de chances ou a razão entre duas chances. Para calcular a razão de chances, exponencie o coeficiente para um nível. O resultado é a razão de chances para o nível comparado ao nível de referência. Por exemplo, uma variável categórica tem os níveis Duro e Macio, e Macio é o nível de referência. Se a razão de chances de Duro é 0,5, a mudança de Macio para Duro diminui as chances do evento em 50%.
Preditoras categóricas com codificação 1, 0, −1
O coeficiente é a mudança estimada no log natural das chances quando você muda da média do log natural das chances para o nível do coeficiente. Por exemplo, uma variável categórica tem os nível Antes da mudança e Depois da mudança. Se o coeficiente de Após a mudança é −2,1, o log natural das chances do evento diminui em 2,1 da média quando a variável é igual a Após a mudança.
Os coeficientes estimados também podem ser usados para calcular as razões de chances ou a razão entre duas chances. Para encontrar o valor para exponenciar, subtraia os coeficientes que você deseja comparar. Por exemplo, uma variável categórica tem os níveis Vermelho, Amarelo e Verde. Para calcular a razão de chances para Vermelho e Amarelo, subtraia o coeficiente de Vermelho do coeficiente de Amarelo e exponencie o resultado. Se a razão de chances é 1,02, a mudança de Vermelho para Amarelo aumenta as chances do evento em 2%.

Coeficiente de SE

O erro padrão do coeficiente estima a variabilidade entre a estimativa do coeficiente que seria obtida caso fossem extraídas amostras da mesma população por vezes seguidas. O cálculo pressupõe que o tamanho da amostra e os coeficientes para estimativa permaneceriam os mesmos caso fossem extraídas repetidas amostras.

Interpretação

Use o erro padrão do coeficiente para medir a precisão da estimativa do coeficiente. Quanto menor o erro padrão, mais precisa é a estimativa.

Intervalo de confiança para coeficiente (IC de 95%)

Esses intervalos de confiança (IC) são intervalos de valores que provavelmente contêm o o valor verdadeiro do coeficiente para cada termo no modelo. O cálculo dos intervalos de confiança usa a distribuição normal. O intervalo de confiança é exato se o tamanho da amostra é grande o suficiente de forma que a distribuição do coeficiente da amostra siga uma distribuição normal.

Como as amostras são aleatórias, é improvável que duas amostras de uma população produzam intervalos de confiança idênticos. No entanto, se você extrair muitas amostras aleatórias, uma determinada porcentagem dos intervalos de confiança resultantes conterá o parâmetro populacional desconhecido. A porcentagem destes intervalos de confiança que contém o parâmetro é o nível de confiança do intervalo.

O intervalo de confiança é composto pelas duas partes a seguir:
Estimativa de ponto
Este valor único estima um parâmetro populacional usando os seus dados amostrais. O intervalo de confiança é centrado em torno da estimativa pontual.
Margem de erro
A margem de erro define a largura do intervalo de confiança e é determinada pela variabilidade observada na amostra, o tamanho da amostra e o nível de confiança. Para calcular o limite superior do intervalo de confiança, a margem de erro é adicionada à estimativa pontual. Para calcular o limite inferior do intervalo de confiança, a margem de erro é subtraída da estimativa pontual.

Interpretação

Use o intervalo de confiança para avaliar a estimativa do coeficiente de população para cada termo no modelo.

Por exemplo, com um nível de confiança de 95%, é possível ter 95% de certeza de que o intervalo de confiança contém o valor do coeficiente para a população. O intervalo de confiança ajuda a avaliar a significância prática de seus resultados. Use seu conhecimento especializado para determinar se o intervalo de confiança inclui valores que tenham significância prática para a sua situação. Se o intervalo for muito amplo para ser útil, pense em aumentar o tamanho da amostra.

Valor Z

O valor Z é uma estatística de teste para testes de Wald que mede a razão entre o coeficiente e seu erro padrão.

Interpretação

O Minitab usa o valor Z para calcular o valor-p, que pode ser usado para a tomada de uma decisão sobre a significância estatística dos termos e do modelo. O teste de Wald é exato quando o tamanho da amostra é grande o bastante de forma que a distribuição dos coeficientes da amostra segue uma distribuição normal.

Um valor-z que está suficientemente longe de 0 indica que a estimativa do coeficiente é amplo e preciso o bastante para ser estatisticamente diferente de 0. Inversamente, um valor-z que está perto de 0 indica que a estimativa do coeficiente é muito pequena ou muito imprecisa para estar certa de que o termo tem um efeito na resposta.

Os testes na tabela Deviance são testes da razão de verossimilhança. O teste na exibição expandida da tabela Coeficientes são os testes de aproximação Wald. Os testes da razão de verossimilhança são mais precisos para amostras pequenas do que os testes de aproximação Wald.

Valor-p

O valor-p é uma probabilidade que mede a evidência contra a hipótese nula. As probabilidades inferiores fornecem evidências mais fortes contra a hipótese nula.

Interpretação

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que o coeficiente do termo é igual a zero, o que implica a não existência de uma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor-p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável resposta e o termo.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior ou igual ao nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável resposta e o termo. Talvez seja necessário reajustar o modelo sem o termo.
Se houver vários preditores sem uma associação estatisticamente significativa com a resposta, você pode reduzir o modelo removendo os termos um de cada vez. Para obter mais informações sobre como remover os termos do modelo, vá para Redução de modelo.
Se um termo do modelo for estatisticamente significativo, a interpretação dependerá do tipo de termo. As interpretações são da seguinte maneira:
  • Se uma preditora contínua for significativo, é possível concluir que o coeficiente para a preditora é diferente de zero.
  • Se uma preditora categórica for significativa, a conclusão depende da codificação da variável categórica. Com a codificação (0, 1), você pode concluir que a probabilidade daquele nível é diferente da probabilidade do nível de referência. Com a codificação (-1, 0, +1), você pode concluir que a probabilidade daquele nível é diferente da probabilidade de base.
  • Se um termo de interação for significativo, você pode concluir que a relação entre uma preditora e a probabilidade do evento depende das outras preditoras no termo.
  • Se um termo polinomial for significativo, você pode concluir que a relação entre uma preditora e a probabilidade do evento depende da magnitude da preditora.

VIF

O fator de inflação da variância (VIF) indica quanto da variância de um coeficiente está inflado devido a multicolinearidade.

Interpretação

Use o VIF para descrever quanta multicolinearidade existe em uma análise de regressão. A multicolinearidade é problemática porque ela pode aumentar a variância dos coeficientes de regressão, tornando difícil avaliar o impacto individual que cada uma das preditoras tem na resposta.

Use as seguintes orientações para interpretar o VIF:
VIF Multicolinearidade
VIF = 1 Nenhum
1 < VIF < 5 Moderado
VIF > 5 Alto
Valores VIF maiores que 5 sugerem que os coeficientes de regressão são mal estimados devido à grave multicolinearidade.

Para obter mais informações sobre a multicolinearidade e como minimizar seus efeitos, veja Multicolinearidade em regressão.

Coeficientes Codificados

Quando você padroniza as variáveis contínuas, os coeficientes representam uma mudança de uma unidade nas variáveis padronizadas. Normalmente, você padroniza as preditoras contínuas para reduzir a multicolinearidade ou para colocar as variáveis em uma escala comum.

Interpretação

Como você usa os coeficientes codificados depende do método de padronização. A interpretação exata dos coeficientes também depende dos aspectos da análise como a função de ligação. Os coeficientes positivos tornam o evento mais provável. Coeficientes negativos tornam o evento menos provável. Um coeficiente estimado próximo de 0 implica que o efeito da preditora é pequeno.

Especifique níveis baixo e alto para codificar como −1 e +1

Cada coeficiente representa a mudança esperada na média da resposta transformada dado que a preditora muda em 1 unidade na escala codificada.

Por exemplo, um modelo usa temperatura em graus Celsius e tempo em segundos. Para temperatura, a codificação faz 0 corresponder a 50 graus Celsius e 1 corresponder a 100 graus Celsius. Para tempo, a codificação faz 0 corresponder a 30 segundos e 1 corresponder a 60 segundos. O coeficiente para temperatura representa um aumento de 50 graus Celsius. O coeficiente para tempo representa um aumento de 30 segundos.

Subtraia a média, depois, divida pelo desvio padrão

Cada coeficiente representa a mudança esperada na média da resposta transformada dado que a variável preditora muda em 1 desvio padrão.

Por exemplo, um modelo usa temperatura em graus Celsius e tempo em segundos. O desvio padrão da temperatura é 3,7 graus Celsius. O desvio padrão de tempo é 18,3 segundos. O coeficiente para temperatura representa um aumento de 3,7 graus Celsius. O coeficiente para tempo representa um aumento de 18,3 segundos.

Subtraia a média

Cada coeficiente representa a mudança esperada na média da resposta transformada dado que a preditora muda em 1.

Por exemplo, um modelo usa temperatura em graus Celsius e tempo em segundos. O coeficiente para temperatura representa um aumento de 1 grau Celsius. O coeficiente para tempo representa um aumento de 1 segundo.

Divida pelo desvio padrão

Cada coeficiente representa a mudança esperada na média da resposta transformada dado que a variável preditora muda em 1 desvio padrão.

Por exemplo, um modelo usa temperatura em graus Celsius e tempo em segundos. O desvio padrão da temperatura é 3,7 graus Celsius. O desvio padrão de tempo é 18,3 segundos. O coeficiente para temperatura representa um aumento de 3,7 graus Celsius. O coeficiente para tempo representa um aumento de 18,3 segundos.

Subtraia um valor especificado, depois, divida pelo outro

Cada coeficiente representa a mudança esperada na média da resposta transformada dado que a variável preditora muda pelo divisor.

Por exemplo, um modelo usa o comprimento em metros e a corrente elétrica em amperes. O divisor é 1.000. O coeficiente do comprimento representa um aumento de 1 milímetro. O coeficiente para corrente elétrica representa um aumento de 1 miliampere.

Interpretação da função de ligação logit

A função de ligação logit fornece a interpretação mais natural dos coeficientes estimados e é, portanto, o link padrão no Minitab. Para a função de ligação do logit, a variável de resposta transformada é o log natural das chances do evento. Um resumo das interpretações dos métodos de padronização diferentes encontra-se a seguir.
Especifique níveis baixo e alto para codificar como −1 e +1

Cada coeficiente representa a mudança esperada na média da resposta transformada dado que a preditora muda em 1 unidade na escala codificada.

Por exemplo, um modelo usa temperatura em graus Celsius. A codificação faz 0 corresponder a 50 graus Celsius e 1 corresponder a 100 graus Celsius. O coeficiente para temperatura representa um aumento de 50 graus Celsius. O coeficiente para temperatura é 1,8. Quando a temperatura aumenta em 1 unidade codificada, a temperatura aumenta em 50 graus e o log natural das chances aumenta em 1,8.

Subtraia a média, depois, divida pelo desvio padrão

Cada coeficiente representa a mudança esperada no log natural das chances do evento dado que a variável preditora muda em 1 desvio padrão.

Por exemplo, um modelo usa temperatura em graus Celsius. O desvio padrão da temperatura é 3,7 graus Celsius. O coeficiente codificado para temperatura é 1,4. Quando a temperatura aumenta em 1 unidade codificada, a temperatura aumenta em 3,7 graus Celsius e o log natural das chances aumenta em 1,4.

Subtraia a média

Cada coeficiente representa a mudança esperada no log natural das chances do evento dado que a preditora muda em 1.

Por exemplo, um modelo usa temperatura em graus Celsius. O coeficiente para temperatura representa um aumento de 1 grau Celsius. O coeficiente para temperatura é 2,3. Quando a temperatura aumenta em 1 unidade codificada, a temperatura aumenta em 1 graus Celsius e o log natural das chances aumenta em 2,3.

Divida pelo desvio padrão

Cada coeficiente representa a mudança esperada no log natural das chances do evento dado que a variável preditora muda em 1 desvio padrão.

Por exemplo, um modelo usa temperatura em graus Celsius. O desvio padrão da temperatura é 3,7 graus Celsius. O coeficiente para temperatura é 1,4. Quando a temperatura aumenta em 1 unidade codificada, a temperatura aumenta em 3,7 graus Celsius e o log natural das chances aumenta em 1,4.

Subtraia um valor especificado, depois, divida pelo outro

Cada coeficiente representa a mudança esperada no log natural das chances do evento dado que a variável preditora muda pelo divisor.

Por exemplo, um modelo usa o comprimento em metros e a corrente elétrica em amperes. O divisor é 1.000. O coeficiente do comprimento representa um aumento de 1 milímetro. O coeficiente para comprimento é 5,6. Quando o comprimento aumenta em 1 unidade codificada, o comprimento aumenta em 1 milímetro e o log natural das chances aumenta em 5,6. O coeficiente para corrente elétrica representa um aumento de 1 miliampere.

Equação de regressão

Para regressão logística binária, o Minitab mostra dois tipos de equações de regressão. A primeira equação diz respeito à probabilidade do evento para a resposta transformada.A primeira equação se relaciona ao número de eventos da resposta transformada. A forma da primeira equação depende da função de ligação.

A segunda equação relaciona as preditoras à resposta transformada. Se o modelo contiver preditoras contínuas e categóricas, a segunda equação pode ser separada para cada combinação de categorias. Para obter mais informações sobre como escolher o número de equações a ser exibido, vá para Selecione os resultados a serem exibidos para Ajustar modelo logístico binário.

Interpretação

Use as equações para examinar a relação entre a resposta e as variáveis preditoras.

Por exemplo, um modelo, para predizer se um cliente compra um produto, contém esses termos:
  • Renda do cliente
  • Se um cliente tem filhos
  • Interação entre as duas preditoras

A primeira equação mostra a relação entre a probabilidade e a resposta transformada por causa da função de ligação do logit.

A segunda equação mostra como a renda e se um cliente tem filhos estão relacionados à resposta transformada. Quando o cliente não tem filhos, o coeficiente para renda é de cerca de 0,04. Quando o cliente tem filhos, o coeficiente é de cerca de 0,02. Para essas equações, quanto mais renda o cliente tem, mais provavelmente ele comprará o produto. Contudo, a rende tem um efeito mais forte em se o cliente compra o produto quando o cliente não tem filhos.

Equação de Regressão em Unidades Não codificadas

P(1)=exp(Y')/(1 + exp(Y'))
Crianças
NãoY'=-3,549 + 0,04296 Renda
       
SimY'=-1,076 + 0,01565 Renda

Se seu modelo for não-hierárquico e você tiver padronizado as preditoras contínuas, a equação de regressão estará em unidades codificadas. Para obter mais informações, consulte a seção em Coeficientes Codificados. Para obter mais informações sobre hierarquia, vá para O que são modelos hierárquicos?.