Na regressão logística binária, você pode inserir dados em dois formatos diferentes: formato de Resposta binária/Frequência binária e formato de Evento/Ensaio. A confiabilidade e interpretação de algumas estatísticas na saída dependem do formato dos dados. Para obter mais informações sobre quando usar cada formato de dados, acesse Quando usar cada formato de dados na regressão logística binária.
Para a regressão logística binária, o formato dos dados afeta o modo como você interpreta os valores do R2 da desviância e do R2 da desviância ajustada. No formato de Evento/Ensaio, cada valor observado representa a probabilidade do evento para todos os ensaios naquela linha dos dados. Normalmente, essa probabilidade é para muitos ensaios e está entre 0 e 1. Por outro lado, cada observação no formato de Resposta/Frequência Binária geralmente representa apenas 1 ensaio. O valor observado para um único ensaio é 1 ou 0.
Em geral, a diferença entre os formatos de dados torna a desviância total nos dados diferente. Para dados de Eventos/Ensaio, a desviância se refere à discrepância entre as probabilidades previstas e as probabilidades observadas. Para o formato de Resposta/Frequência Binária, a desviância se refere à discrepância entre as probabilidades previstas e o resultado de 0% ou 100% para cada ensaio. O R2 da desviância e o R2 da desviância ajustada são normalmente mais altos para os dados em formato de Evento/Ensaio.
Uma ilustração gráfica esclarece a diferença. Nesses gráficos, os símbolos representam as observações nos dados e a curva representa os valores preditos no modelo. Para os dados de Evento/Ensaio, os símbolos caem próximos à linha. O valor de R2 da desviância para os dados de Evento/Ensaio é de aproximadamente 96%. O modelo prediz as probabilidades médias muito bem.
Para os dados de Resposta/Frequência Binária, as observações são perto da linha predita apenas quando a linha está perto de 0% ou 100%. O valor de R2 da desviância para os dados de Resposta/Frequência Binária é de aproximadamente 56%. A relação entre as probabilidades preditas e os casos individuais não são tão fortes.
Para a regressão logística binária, o formato dos dados afeta se os testes de qualidade do ajuste da desviância forem confiáveis. O valor-p para o teste de qualidade de ajuste da desviância geralmente diminui à medida que o número de ensaios por linha diminui. Os dados no formato de Resposta/Frequência Binária geralmente têm poucos ensaios por linha. Assim, o teste de qualidade de ajuste da desviância é tende a indicar um ajuste insuficiente quando os dados estão no formato de Resposta/Frequência Binária mesmo quando o ajuste é bom. O teste de qualidade de ajuste da desviância também tende a indicar falsamente um ajuste insuficiente quando os dados estão no formato de Evento/Ensaio mas o número de ensaios por linha é pequeno.
O teste de Hosmer-Lemeshow não depende do formato dos dados. Quando os dados têm poucos ensaios por linha, o teste de Hosmer-Lemeshow é um indicador mais confiável de o quão bem o modelo ajusta os dados.
Compare estes dois conjuntos de resultados para os mesmos dados em diferentes formatos. Para estes dados, a forma do modelo é correta. A informação de resposta, coeficientes e os resultados do teste de Hosmer- Lemeshow são os mesmos. A conclusão para o teste de qualidade do ajuste da desviância depende do formato dos dados.
Nestes resultados, os dados estão no formato de Resposta/Frequência Binário com nenhuma coluna de frequência. A análise utiliza 500 linhas de dados. Cada linha representa um ensaios. No nível 0,05 de significância, o valor-p para o teste de qualidade de ajuste da desviância indica que o modelo se ajusta de maneira insatisfatória. Este valor-p conduz à conclusão incorreta de que o formato do modelo está incorreto. Se você coletar os dados no formato de Resposta/Frequência Binária, o teste de qualidade de ajuste da desviância muitas vezes não é confiável.
Nestes resultados, os dados estão no formato Evento/Ensaio. A análise usa 5 linhas de dados. Cada linha de dados representa a 100 ensaios. No nível 0,05 de significância, o valor-p para o teste de qualidade de ajuste da desviância não encontra evidências de um modelo mal-ajustado. Se você coletar dados em formato Evento/Ensaio, o teste de qualidade de ajuste da desviância normalmente é confiável.
Para a regressão logística binária, o formato dos dados afeta se os testes de qualidade do ajuste de Pearson forem confiáveis. A aproximação para a distribuição do qui-quadrado que o teste de Pearson usa é imprecisa quando o número esperado de eventos por linha é baixo. Os dados no formato de Resposta/Frequência Binária geralmente têm poucos ensaios por linha. Assim, o teste de qualidade de ajuste de Pearson tende a ser impreciso quando os dados estão no formato de Resposta/Frequência binária.
O teste de Hosmer-Lemeshow não depende do formato dos dados. Quando os dados têm poucos ensaios por linha, o teste de Hosmer-Lemeshow é um indicador mais confiável de o quão bem o modelo ajusta os dados.
Compare estes dois conjuntos de resultados para os mesmos dados em diferentes formatos. Para estes dados, a forma do modelo está incorreta. O modelo verdadeiro contém a interação entre X1 e X2. A informação de resposta, coeficientes e os resultados do teste de Hosmer- Lemeshow são os mesmos. A conclusão para o teste de qualidade do ajuste de Pearson depende do formato dos dados.
Nestes resultados, os dados estão no formato de Resposta/Frequência Binário com uma coluna de frequência. A análise usa 18 linhas de dados. Cada linha representa 250 ensaios de Bernoulli. No nível 0,05 de significância, o valor-p para o teste de qualidade de ajuste de Pearson indica que o modelo ajusta os dados. Este valor-p conduz à conclusão incorreta de que o modelo é adequado. Se você coletar os dados no formato de Resposta/Frequência Binária, o teste de qualidade de ajuste de Pearson não é confiável.
Nestes resultados, os dados estão no formato Evento/Ensaio. A análise usa 9 linhas de dados. Cada linha de dados representa a 500 ensaios. No nível 0,05 de significância, o valor-p para o teste de qualidade de ajuste de Pearson indica que o modelo não ajusta os dados. Se você coletar dados em formato Evento/Ensaio, o teste de qualidade de ajuste de Pearson normalmente é confiável.