Considerações de dados para Ajustar modelo logístico binário

Para garantir que seus resultados sejam válidos, considere as seguintes diretrizes quando coletar dados, realizar a análise e interpretar seus resultados.

Os preditores podem ser contínuos ou categóricos

A variável contínua pode ser medida e ordenada, e tem um número infinito de valores entre dois valores quaisquer. Por exemplo, os diâmetros de uma amostra de pneus representam uma variável contínua.

As variáveis categóricas contêm um número finito e contável de categorias ou grupos distintos. Os dados categóricos podem não ter uma ordem lógica. Por exemplo, os preditores categóricos incluem gênero, tipo de material e método de pagamento.

Se você tem uma variável discreta, pode decidir se quer tratá-la como um preditor contínuo ou categórico. Uma variável discreta pode ser medida e ordenada mas tem um número contável de valores. Por exemplo, o número de pessoas que vivem em uma casa é uma variável discreta. A decisão de se tratar de uma variável contínua ou discreta como categórica depende do número de níveis, bem como da finalidade da análise. Para obter mais informações, acesse O que são variáveis categóricas, discretas e contínuas?.

Se você tiver preditores categóricos aninhados ou aleatórios, use Ajustar modelo linear generalizado se você tiver todos os fatores fixos ou Ajustar modelo de efeitos mistos se você tiver fatores aleatórios. Para Ajustar modelo linear generalizado, a resposta é contínua.

A variável resposta deve ser binária
A resposta binária tem dois resultados, como aprovação ou reprovação.
  • Se a variável resposta contiver três ou mais categorias que têm uma ordem natural, como discorda totalmente, discorda, neutro, concorda e concorda plenamente, use Regressão logística ordinal.
  • Se a variável resposta contém três ou mais categorias que não têm uma ordem natural, como arranhão, dente e rasgo, use Regressão logística nominal.
  • Se a sua variável resposta conta ocorrências, como o número de defeitos, use Ajustar modelo de Poisson.
Considere o uso de uma técnica de validação de modelo
O Minitab permite que você valide o desempenho da modelo com um conjunto de dados de teste ou com validação cruzada. Estatísticas de sumário do modelo, como o R2, da desviância, que destinam-se para os dados do processo de montagem do modelo, tendem a ser otimistas. O uso de um conjunto de dados de teste ou validação cruzada pode dar uma representação mais exata de como o modelo funciona para os dados novos.
Coleta de dados usando as práticas recomendadas
Para garantir que seus resultados sejam válidos, considere as seguintes diretrizes:
  • Certifique-se de que os dados representem a população de interesse.
  • Colete dados suficientes para proporcionar a precisão necessária.
  • Meça as variáveis com o máximo rigor e precisão possível.
  • Registro os dados na ordem em que são coletados.
A correlação entre os preditores, também conhecida como multicolinearidade, não deve ser grave

Se multicolinearidade for grave, você pode não ser capaz de determinar qual dos preditores deve ser incluído no modelo. Para determinar a gravidade da multicolinearidade, utilize os fatores de inflação da variância (VIF) na tabela de coeficientes da saída.

O modelo deve fornecer um bom ajuste aos dados

Se o modelo não se ajustar aos dados, os resultados podem ser equivocados. Na saída, utilize os gráficos residuais, as estatísticas de diagnóstico para observações incomuns e as estatísticas de resumo modelo para determinar o quão bem o modelo se ajusta aos dados.