Interpretar os principais resultados para Ajustar modelo logístico binário

Conclua as etapas a seguir para interpretar um modelo logístico binário. A saída principal inclui o valor-p, os coeficientes, R2 e os testes de qualidade de ajuste.

Etapa 1: Determinar se a associação entre a resposta e o termo é estatisticamente significativa

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor-p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e o termo.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior ou igual ao nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e o termo. Talvez seja necessário reajustar o modelo sem o termo.
Se houver vários preditores sem uma associação estatisticamente significativa com a resposta, você pode reduzir o modelo removendo os termos um de cada vez. Para obter mais informações sobre como remover os termos do modelo, vá para Redução de modelo.
Se um termo do modelo for estatisticamente significativo, a interpretação dependerá do tipo de termo. As interpretações são da seguinte maneira:
  • Se um preditor contínuo for significativo, é possível concluir que o coeficiente para o preditor é diferente de zero.
  • Se um preditor categórico é significativo, é possível concluir que nem todos os níveis do fator tem a mesma probabilidade.
  • Se um termo de interação for significativo, é possível concluir que a relação entre um preditor e a probabilidade do evento depende dos outros preditores no termo.
  • Se um termo polinomial for significativo, é possível concluir que a relação entre um preditor e a probabilidade do evento depende da magnitude do preditor.
Tabela Deviance Fonte GL Desv (Aj.) Média (Aj.) Qui-Quadrado Valor-P Regressão 1 22,7052 22,7052 22,71 0,000 Dose (mg) 1 22,7052 22,7052 22,71 0,000 Erro 4 0,9373 0,2343 Total 5 23,6425
Coeficientes EP de Termo Coef Coef VIF Constante -5,25 1,99 Dose (mg) 3,63 1,30 1,00
Razões de Chances para Preditores Contínuos Razão de Chances IC de 95% Dose (mg) 37,5511 (2,9645; 475,6528)
Principais resultados: Valor-p, Coeficientes

Nesses resultados, a dosagem é estatisticamente significativa no nível de significância de 0,05. Você pode concluir que as mudanças na dosagem estão associadas com mudanças nas probabilidades de que os eventos ocorram.

Avalie o coeficiente para determinar se uma mudança na variável preditora pode tornar o evento mais ou menos provável. A relação entre o coeficiente e as probabilidades dependem de diversos aspectos da análise, incluindo a função de ligação. Geralmente, os coeficientes positivos indicam que o evento se torna mais provável conforme a preditora aumenta. Coeficientes negativos indicam que o evento torna-se menos provável conforme a preditora aumenta. Para obter mais informações, vá para Coeficientes e equação de regressão para Ajustar modelo logístico binário.

O coeficiente para a dose é 3,63, o que sugere que doses maiores estão associadas a valores mais altos de que o evento ocorrerá.

Se um termo de interação for estatisticamente significativo, a relação entre uma preditora e a resposta difere pelo nível da outra preditora. Neste caso, você não deve interpretar os principais efeitos sem considerar o efeito da interação. Para obter uma compreensão melhor dos efeitos principais, dos efeitos da interação e da curvatura em seu modelo, vá para Gráficos Fatoriais e Otimização de Resposta.

Etapa 2: Compreender os efeitos das preditoras

Use a razão de chances para compreender o efeito de uma preditora. A interpretação da razão de chances depende se a preditora é categórica ou contínua. O Minitab calcula razões de chances quando o modelo usa a função de ligação logit.
Razões de Chances para Preditores Contínuos

As razões de chances que são maiores do que 1 indicam que o evento tem mais probabilidade de ocorrer conforme a preditora aumenta. As razões de chances que não menos do que 1 indicam que o evento tem menos probabilidade de ocorrer conforme a preditora aumenta.

Regressão Logística Binária: Sem Bactéria versus Dose (mg)

Razões de Chances para Preditores Contínuos Unidade de Razão de Mudança Chances IC de 95% Dose (mg) 0,5 6,1279 (1,7218; 21,8095)
Resultado principal: Razão de chances

Nesses resultados, o modelo usa o nível de dosagem de um medicamento para predizer a presença ou ausência de bactéria em adultos. Cada comprimido contém uma dose de 0,5 mg, portanto, os pesquisadores usam uma mudança de unidade de 0,5 mg. A razão de chances é de aproximadamente 6. Para cada comprimido adicional que um adulto ingere, as chances de que um paciente não tenha a bactéria aumenta cerca de 6 vezes.

Razões de Chances para Preditores Categóricos

Para preditores categóricos, a razão de chances compara as chances de o evento ocorrer em dois níveis diferentes do preditor. O Minitab define a comparação listando os níveis em 2 colunas, Nível A e Nível B. O nível B é o nível de referência para o fator. As razões de chances que forem maiores que 1 indicam que o evento é menos provável a nível B. As razões de chances que forem menores do que 1 indicam que o evento apresenta maior probabilidade no nível B. Para obter informações sobre como selecionar o nível de referência para a análise, acesse Especificar o esquema de codificação para Ajustar modelo logístico binário.

Regressão Logística Binária: Cancellation versus Mês

Razões de Chances para Preditores Categóricos Razão de Nível A Nível B Chances IC de 95% Mês 2 1 1,1250 (0,0600; 21,0867) 3 1 3,3750 (0,2897; 39,3222) 4 1 7,7143 (0,7460; 79,7712) 5 1 2,2500 (0,1107; 45,7226) 6 1 6,0000 (0,5322; 67,6495) 3 2 3,0000 (0,2547; 35,3340) 4 2 6,8571 (0,6556; 71,7201) 5 2 2,0000 (0,0976; 41,0034) 6 2 5,3333 (0,4679; 60,7972) 4 3 2,2857 (0,4103; 12,7323) 5 3 0,6667 (0,0514; 8,6389) 6 3 1,7778 (0,2842; 11,1200) 5 4 0,2917 (0,0252; 3,3719) 6 4 0,7778 (0,1464; 4,1326) 6 5 2,6667 (0,2124; 33,4861) Razão de chances para o nível A em relação ao nível B
Resultado principal: Razão de chances

Nesses resultados, a preditora categórica é o mês de início de uma estação atarefada do hotel. As resposta é se ou não um hóspede cancela uma reserva. A maior razão de chances é de aproximadamente 8, quando o nível A é o mês 4 e o nível B é o mês 1. Isso indica que as chances de que um hóspede cancele uma reserva no mês 4 é de aproximadamente 8 vezes mais alta do que as chances de um hóspede cancelar uma reserva no mês 1.

Para obter mais informações, vá para Razões de chances para Ajustar modelo logístico binário.

Etapa 3: Determinar quão bem o modelo se ajusta aos seus dados

Para determinar quão bem o modelo se ajusta aos seus dados, examine as estatísticas na tabela Resumo do modelo.

Para a regressão logística binária, o formato de dados afeta a maior parte do resumo do modelo e as estatísticas de qualidade do ajuste. O AIC e o teste de Hosmer-Lemeshow não são afetados pelo formato dos dados e são, portanto, comparáveis entre os formatos. Para obter mais informações, vá para Como os formatos de dados afetam a qualidade de ajuste na regressão logística binária.

R2 deviance

Normalmente, quanto maior o R2 de deviance, melhor o modelo ajusta os dados. O R2 de deviance está sempre entre 0 e 100%.

O R2 de deviance sempre aumenta quando você adiciona mais preditores a um modelo. Por exemplo, o melhor modelo de cinco preditores terá sempre um R2 que é pelo menos tão elevado quanto o melhor modelo de quatro preditores. Portanto, R2 de deviance é mais útil quando for comparado a modelos do mesmo tamanho.

Para a regressão logística binária, o formato dos dados afeta o valor de R2 de deviance. O R2 de deviance é geralmente mais elevado para os dados em formato de Eventos/Ensaio. Os valores de R2 de deviance só são comparáveis entre os modelos que usam o mesmo formato de dados.

O R2 deviance é apenas uma medida de quão bem o modelo se ajusta aos dados. Mesmo quando um modelo tem um R2 elevado, você deve verificar os gráficos de resíduos e testes de qualidade do ajuste para avaliar se um modelo ajusta bem os dados.

R2 deviance (aj.)

Use o R2 de deviance ajustado quando desejar comparar modelos que têm diferentes números de preditores. O R2 de deviance sempre aumenta quando você adiciona um preditor ao modelo. O valor de R2 de deviance ajustado incorpora o número de preditores no modelo para ajudá-lo a escolher o modelo correto.

AIC

Use o AIC para comparar modelos diferentes. Quanto menor o AIC, melhor o modelo se ajusta aos dados. No entanto, o modelo com o menor AIC para um conjunto de preditores não necessariamente ajusta bem os dados. Use também os testes de qualidade do ajuste e os gráficos de resíduos para avaliar se um modelo ajusta bem os dados.

Sumário do Modelo R-quad R2 (Aj.) Deviance Deviance AIC 96,04% 91,81% 21,68
Principais Resultados: R2 deviance, R2(aj) deviance, AIC

Nesses resultados, o modelo explica 96,04% do deviance na variável de resposta. Para esses dados, o valor R2 deviance indica que o modelo fornece um bom ajuste para os dados. Se modelos adicionais estiverem ajustados com diferentes preditoras, use o valor R2 deviance ajustado e o valor AIC para comparar quão bem o modelo se ajusta aos dados.

Etapa 4: Determine se o modelo não se ajusta aos seus dados

Use os testes de qualidade do ajuste para determinar se as probabilidades preditas se desviam das probabilidades observadas de uma maneira que a distribuição binomial não prediz. Se o valor-p do teste de qualidade do ajuste for menor do que seu nível de significância escolhido, as probabilidade preditas se desviam das probabilidades observadas de uma maneira que a distribuição binomial não prediz. Esta lista fornece motivos comuns para o desvio:
  • Função de ligação incorreta
  • Termo de ordem mais alta omitido para variáveis no modelo
  • Preditora omitida que não está no modelo
  • Superdispersão

Se o desvio é estatisticamente significativo, você pode tentar uma função de ligação diferente ou mudar os termos no modelo.

Para a regressão logística binária, o formato dos dados afeta o valor de p, pois altera o número de ensaios por linha.

  • Deviance: O valor de p para o teste de deviance tende a ser mais baixo para os dados que estão no formato de Resposta/Frequência binária em comparação com os dados no formato de Evento/Ensaio. Para dados no formato de Resposta/Frequência binária, os resultados Hosmer-Lemeshow são mais confiáveis.
  • Pearson: A aproximação para a distribuição do qui-quadrado que o teste de Pearson usa é imprecisa quando o número esperado de eventos por linha nos dados é baixo. Assim, o teste de qualidade de ajuste de Pearson é impreciso quando os dados estão no formato de Resposta/Frequência binária.
  • Hosmer-Lemeshow: O teste de Hosmer-Lemeshow não depende do número de ensaios por linha nos dados como os outros testes de qualidade do ajuste. Quando os dados têm poucos ensaios por linha, o teste de Hosmer-Lemeshow é um indicador mais confiável de o quão bem o modelo ajusta os dados.
Informações da Resposta Nome do Variável Valor Contagem Evento Evento Evento 160 Evento Não-evento 340 Avaliação Total 500
Testes de Qualidade de Ajuste Teste GL Qui-Quadrado Valor-P Deviance 2 3,78 0,151 Pearson 2 3,76 0,152 Hosmer-Lemeshow 3 3,76 0,288
Principais resultados para formato evento/ensaio: informações de resposta, teste Deviance, Teste de Pearson e teste de Hosmer-Lemeshow

Nesses resultados, a tabela Informações de resposta mostra Evento e Ensaio na coluna Variável. Esses rótulos indicam que os dados estão no formato Evento/Ensaio. Todos os testes de qualidade do ajuste têm valores-p maiores do que o nível de significância usual de 0,05. Os testes não fornecem evidências de que as probabilidades estimadas desviam das probabilidades observadas de uma forma que a distribuição binomial não prediz.

Informações da Resposta Variável Valor Contagem Y Evento 160 (Evento) Não evento 340 Total 500
Testes de Qualidade de Ajuste Teste GL Qui-Quadrado Valor-P Deviance 497 552,03 0,044 Pearson 497 504,42 0,399 Hosmer-Lemeshow 3 3,76 0,288
Principais resultados para formato de resposta/frequência binária: informações de resposta, teste Deviance, teste de Pearson e teste de Hosmer-Lemeshow

Nesses resultados para os mesmos dados, a tabela Informações de resposta mostra Y na coluna de variáveis. Este rótulo indica que os dados estão no formato de Resposta/Frequência binária. O teste deviance tem um valor-p menor do que o nível de significância usual de 0,05, mas o teste de Hosmer-Lemeshow é o teste mais confiável. O teste de Hosmer-Lemeshow não fornece evidências de que as probabilidades preditas se desviam das probabilidades observadas de uma forma que a distribuição binomial não prediz.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política