Interpretar os principais resultados para Ajustar modelo logístico binário

Conclua as etapas a seguir para interpretar um modelo logístico binário. A saída principal inclui o valor-p, os coeficientes, R2 e os testes de qualidade de ajuste.

Etapa 1: Determinar se a associação entre a resposta e o termo é estatisticamente significativa

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor-p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável resposta e o termo.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior ou igual ao nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável resposta e o termo. Talvez seja necessário reajustar o modelo sem o termo.
Se houver vários preditores sem uma associação estatisticamente significativa com a resposta, você pode reduzir o modelo removendo os termos um de cada vez. Para obter mais informações sobre como remover os termos do modelo, vá para Redução de modelo.
Se um termo do modelo for estatisticamente significativo, a interpretação dependerá do tipo de termo. As interpretações são da seguinte maneira:
  • Se uma preditora contínua for significativo, é possível concluir que o coeficiente para a preditora é diferente de zero.
  • Se um preditor categórico é significativo, é possível concluir que nem todos os níveis do fator tem a mesma probabilidade.
  • Se um termo de interação for significativo, você pode concluir que a relação entre uma preditora e a probabilidade do evento depende das outras preditoras no termo.
  • Se um termo polinomial for significativo, você pode concluir que a relação entre uma preditora e a probabilidade do evento depende da magnitude da preditora.

Regressão Logística Binária: Sem Bactéria versus Dose (mg)

Análise de Variância Teste de Wald Fonte GL Qui-Quadrado Valor-p Regressão 1 7,83 0,005 Dose (mg) 1 7,83 0,005

Regressão Logística Binária: Sem Bactéria versus Dose (mg)

Coeficientes EP de Termo Coef Coef VIF Constante -5,25 1,99 Dose (mg) 3,63 1,30 1,00
Principais resultados: Valor-p, Coeficientes

Nesses resultados, a dosagem é estatisticamente significativa no nível de significância de 0,05. Você pode concluir que as mudanças na dosagem estão associadas com mudanças nas probabilidades de que os eventos ocorram.

Avalie o coeficiente para determinar se uma mudança na variável preditora pode tornar o evento mais ou menos provável. A relação entre o coeficiente e as probabilidades dependem de diversos aspectos da análise, incluindo a função de ligação. Geralmente, os coeficientes positivos indicam que o evento se torna mais provável conforme a preditora aumenta. Coeficientes negativos indicam que o evento torna-se menos provável conforme a preditora aumenta. Para obter mais informações, acesse Coeficientes e equação de regressão para Ajustar modelo logístico binário.

O coeficiente para a dose é 3,63, o que sugere que doses maiores estão associadas a valores mais altos de que o evento ocorrerá.

Se um termo de interação for estatisticamente significativo, a relação entre uma preditora e a resposta difere pelo nível da outra preditora. Neste caso, você não deve interpretar os principais efeitos sem considerar o efeito da interação. Para obter uma compreensão melhor dos efeitos principais, dos efeitos da interação e da curvatura em seu modelo, vá para Gráficos Fatoriais e Otimização de Resposta.

Etapa 2: Compreender os efeitos dos preditores

Use a razão de chances para compreender o efeito de uma preditora. A interpretação da razão de chances depende se a preditora é categórica ou contínua. O Minitab calcula razões de chances quando o modelo usa a função de ligação logit.
Razões de Chances para Preditores Contínuos

As razões de chances que são maiores do que 1 indicam que o evento tem mais probabilidade de ocorrer conforme a preditora aumenta. As razões de chances que não menos do que 1 indicam que o evento tem menos probabilidade de ocorrer conforme a preditora aumenta.

Regressão Logística Binária: Sem Bactéria versus Dose (mg)

Razões de Chances para Preditores Contínuos Unidade de Razão de Mudança Chances IC de 95% Dose (mg) 0,5 6,1279 (1,7218; 21,8095)
Resultado principal: Razão de chances

Nesses resultados, o modelo usa o nível de dosagem de um medicamento para predizer a presença ou ausência de bactéria em adultos. Neste exemplo, a ausência de bactérias é o Evento. Cada comprimido contém uma dose de 0,5 mg, portanto, os pesquisadores usam uma mudança de unidade de 0,5 mg. A razão de chances é de aproximadamente 6. Para cada comprimido adicional que um adulto ingere, as chances de que um paciente não tenha a bactéria aumenta cerca de 6 vezes.

Razões de Chances para Preditores Categóricos

Para preditores categóricos, a razão de chances compara as chances de o evento ocorrer em dois níveis diferentes do preditor. O Minitab define a comparação listando os níveis em duas colunas, Nível A e Nível B. Nível B é o nível de referência para o fator. A razão de chances que for maior que 1 indica que o evento é mais provável no nível A. A razão de chances que for menor do que 1 indica que o evento é menos provável no nível A. Para obter mais informações sobre codificação de preditores categóricos, acesse Esquemas de codificação para preditores categóricos.

Regressão Logística Binária: Cancellation versus Mês

Razões de Chances para Preditores Categóricos Razão de Nível A Nível B Chances IC de 95% Mês 2 1 1,1250 (0,0600; 21,0867) 3 1 3,3750 (0,2897; 39,3222) 4 1 7,7143 (0,7460; 79,7712) 5 1 2,2500 (0,1107; 45,7226) 6 1 6,0000 (0,5322; 67,6495) 3 2 3,0000 (0,2547; 35,3340) 4 2 6,8571 (0,6556; 71,7201) 5 2 2,0000 (0,0976; 41,0034) 6 2 5,3333 (0,4679; 60,7972) 4 3 2,2857 (0,4103; 12,7323) 5 3 0,6667 (0,0514; 8,6389) 6 3 1,7778 (0,2842; 11,1200) 5 4 0,2917 (0,0252; 3,3719) 6 4 0,7778 (0,1464; 4,1326) 6 5 2,6667 (0,2124; 33,4861) Razão de chances para o nível A em relação ao nível B
Resultado principal: Razão de chances

Nesses resultados, o preditor categórico é o mês de início de uma estação atarefada do hotel. As resposta é se um hóspede cancela uma reserva ou não. Neste exemplo, um cancelamento é o Evento. A maior razão de chances é de aproximadamente 7,71, quando o nível A é o mês 4 e o nível B é o mês 1. Isso indica que as chances de que um hóspede cancele uma reserva no mês 4 é de aproximadamente 8 vezes mais alta do que as chances de um hóspede cancelar uma reserva no mês 1.

Para obter mais informações, acesse Razões de chances para Ajustar modelo logístico binário.

Etapa 3: Determinar quão bem o modelo se ajusta aos seus dados

Para determinar quão bem o modelo se ajusta aos seus dados, examine as estatísticas na tabela Resumo do modelo.

Muitas das estatísticas de resumo do modelo e de qualidade de ajuste são afetadas pelo modo como os dados são organizados na worksheet e se há um ensaio por linha ou vários ensaios por linha. O teste de Hosmer-Lemeshow não é afetado pelo formato dos dados é comparável entre os formatos. Para obter mais informações, acesse Como os formatos de dados afetam a qualidade de ajuste na regressão logística binária.

R2 da desviância

Normalmente, quanto maior o R2 de deviance, melhor o modelo ajusta os dados. O R2 de deviance está sempre entre 0 e 100%.

O R2 de deviance sempre aumenta quando você adiciona mais preditores a um modelo. Por exemplo, o melhor modelo de cinco preditores terá sempre um R2 que é pelo menos tão elevado quanto o melhor modelo de quatro preditores. Portanto, R2 de deviance é mais útil quando for comparado a modelos do mesmo tamanho.

Para a regressão logística binária, o formato dos dados afeta o valor de R2 de deviance. O R2 de deviance é geralmente mais elevado para os dados em formato de Eventos/Ensaio. Os valores de R2 de deviance só são comparáveis entre os modelos que usam o mesmo formato de dados.

A estatística de qualidade do ajuste é apenas uma medida do grau em que o modelo ajusta os dados (se ajusta bem ou mal). Mesmo quando um modelo tem um valor desejável, você deve verificar os gráficos de resíduos e testes de qualidade do ajuste para avaliar se um modelo ajusta bem os dados.

R2 da desviância (aj.)

Use o R2 de deviance ajustado quando desejar comparar modelos que têm diferentes números de preditores. O R2 de deviance sempre aumenta quando você adiciona um preditor ao modelo. O valor de R2 de deviance ajustado incorpora o número de preditores no modelo para ajudá-lo a escolher o modelo correto.

AIC, AICc e BIC

Use o AIC, AICc e BIC para comparar modelos diferentes. Para cada estatística, valores menores são preferíveis. No entanto, o modelo com o menor valor para um conjunto de preditores não necessariamente ajusta bem os dados. Use também os testes de qualidade do ajuste e os gráficos de resíduos para avaliar se um modelo ajusta bem os dados.

Binary Logistic Regression: No Bacteria versus Dose (mg)

Model Summary Deviance Deviance R-Sq R-Sq(adj) AIC AICc BIC 96.04% 91.81% 21.68 25.68 21.26
Principais Resultados: R2 da desviância, R2 (aj) da desviância, AIC

Nesses resultados, o modelo explica 96,04% do total de desviância na variável de resposta. Para esses dados, o valor R2 da desviância indica que o modelo fornece um bom ajuste para os dados. Se modelos adicionais estiverem ajustados com preditores diferentes, use o valor R2 da desviância ajustado, o valor de AIC, o valor de AICc e o valor de BIC para comparar o grau de ajuste do modelo aos dados.

Etapa 4: Determine se o modelo não se ajusta aos seus dados

Use os testes de qualidade do ajuste para determinar se as probabilidades preditas se desviam das probabilidades observadas de uma maneira que a distribuição binomial não prediz. Se o valor-p do teste de qualidade do ajuste for menor do que seu nível de significância escolhido, as probabilidade preditas se desviam das probabilidades observadas de uma maneira que a distribuição binomial não prediz. Esta lista fornece motivos comuns para o desvio:
  • Função de ligação incorreta
  • Termo de ordem mais alta omitido para variáveis no modelo
  • Preditora omitida que não está no modelo
  • Superdispersão

Se o desvio é estatisticamente significativo, você pode tentar uma função de ligação diferente ou mudar os termos no modelo.

Para a regressão logística binária, o formato dos dados afeta o valor de p, pois altera o número de ensaios por linha.

  • Deviance: O valor de p para o teste de deviance tende a ser mais baixo para os dados que estão no formato de Resposta/Frequência binária em comparação com os dados no formato de Evento/Ensaio. Para dados no formato de Resposta/Frequência binária, os resultados Hosmer-Lemeshow são mais confiáveis.
  • Pearson: A aproximação para a distribuição do qui-quadrado que o teste de Pearson usa é imprecisa quando o número esperado de eventos por linha nos dados é baixo. Assim, o teste de qualidade de ajuste de Pearson é impreciso quando os dados estão no formato de Resposta/Frequência binária.
  • Hosmer-Lemeshow: O teste de Hosmer-Lemeshow não depende do número de ensaios por linha nos dados como os outros testes de qualidade do ajuste. Quando os dados têm poucos ensaios por linha, o teste de Hosmer-Lemeshow é um indicador mais confiável de o quão bem o modelo ajusta os dados.
Informações da Resposta Nome do Variável Valor Contagem Evento Evento Evento 160 Evento Não-evento 340 Avaliação Total 500
Testes de Qualidade de Ajuste Teste GL Qui-Quadrado Valor-P Deviance 2 3,78 0,151 Pearson 2 3,76 0,152 Hosmer-Lemeshow 3 3,76 0,288
Principais resultados para formato evento/ensaio: informações de resposta, teste Deviance, Teste de Pearson e teste de Hosmer-Lemeshow

Nesses resultados, a tabela Informações de resposta mostra Evento e Ensaio na coluna Variável. Esses rótulos indicam que os dados estão no formato Evento/Ensaio. Todos os testes de qualidade do ajuste têm valores-p maiores do que o nível de significância usual de 0,05. Os testes não fornecem evidências de que as probabilidades estimadas desviam das probabilidades observadas de uma forma que a distribuição binomial não prediz.

Informações da Resposta Variável Valor Contagem Y Evento 160 (Evento) Não evento 340 Total 500
Testes de Qualidade de Ajuste Teste GL Qui-Quadrado Valor-P Deviance 497 552,03 0,044 Pearson 497 504,42 0,399 Hosmer-Lemeshow 3 3,76 0,288
Principais resultados para formato de resposta/frequência binária: informações de resposta, teste Deviance, teste de Pearson e teste de Hosmer-Lemeshow

Nesses resultados para os mesmos dados, a tabela Informações de resposta mostra Y na coluna de variáveis. Este rótulo indica que os dados estão no formato de Resposta/Frequência binária. O teste deviance tem um valor-p menor do que o nível de significância usual de 0,05, mas o teste de Hosmer-Lemeshow é o teste mais confiável. O teste de Hosmer-Lemeshow não fornece evidências de que as probabilidades preditas se desviam das probabilidades observadas de uma forma que a distribuição binomial não prediz.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política