Na regressão logística binária, você pode inserir dados em dois formatos diferentes: formato de Resposta binária/Frequência binária e formato de Evento/Ensaio. O formato dos dados para análise deve normalmente corresponder à maneira como você coletou os dados.
Você normalmente coleta e analisa dados no formato Evento/Ensaio porque você pode coletar diversos ensaios de uma vez. Por exemplo, um engenheiro produz um lote de 200 circuitos integrados. Todos os circuitos no lote têm de usar as mesmas configurações de processo. Esses 200 circuitos são 200 ensaios. Se o engenheiro coleta dados em outro lote com as mesmas configurações, os dados são uma linha separada.
No formato Evento/Ensaio, a variável de resposta usa duas colunas. Uma coluna contém o número de sucessos ou eventos de interesse. A outra coluna contém o número de ensaios.
C1 | C2 | C3 | C4 |
---|---|---|---|
Sucessos | Ensaios | Temperatura | Matéria-prima |
180 | 200 | 1500 | Fornecedor B |
200 | 200 | 1400 | Fornecedor A |
196 | 200 | 1500 | Fornecedor A |
197 | 200 | 1400 | Fornecedor B |
190 | 200 | 1400 | Fornecedor A |
193 | 200 | 1400 | Fornecedor B |
198 | 200 | 1500 | Fornecedor A |
185 | 200 | 1500 | Fornecedor B |
Se os dados estiverem no formato Evento/Ensaio na worksheet, mas o número de ensaios por linha for pequeno, a confiabilidade e a interpretação das mudanças estatísticas. Por exemplo, se cada linha tem 1 ensaio, o número de eventos por linha é 0 ou 1. A análise desses dados é a mesma que se você tivesse dados de resposta/frequência binária sem uma coluna de frequência.
Você normalmente coleta e analisa dados no formato Resposta/Frequência binária porque você pode registrar o resultado de cada ensaio separado conforme ocorre o resultado. Por exemplo, um consultor de marketing pesquisa clientes conforme eles saem de um supermercado sobre se o consumidor comprou uma nova marca de cereal. Conforme cada consumidor responde, o consultor registra suas informações individuais.
Em formato de Resposta/Frequência binária, a variável de resposta usa uma coluna. A coluna de resposta tem apenas dois valores, um dos quais indica o evento e o outro dos quais indica o não evento.
C1 | C2 | C3 |
---|---|---|
Comprou | Renda | Filhos |
Sim | 37 | Sim |
Não | 47 | Sim |
Sim | 34 | Não |
Sim | 58 | Não |
Você pode incluir uma coluna de frequência para dados no formato Resposta/Frequência binária. Para a interpretação mais clara dos gráficos de resíduos versus ordem, combine somente observações consecutivas. A combinação de observações não-consecutivas pode criar ou ocultar padrões nos gráficos de resíduos versus ordem.
C1 | C2 | C3 | C4 |
---|---|---|---|
Comprou | Renda | Filhos | Frequência |
Sim | 40 | Sim | 2 |
Não | 40 | Não | 12 |
Sim | 45 | Sim | 1 |
Não | 45 | Não | 6 |