Na regressão logística binária, você pode inserir dados em dois formatos diferentes: formato de Resposta binária/Frequência binária e formato de Evento/Ensaio. O formato dos dados para análise deve normalmente corresponder à maneira como você coletou os dados.

Por que usar dados no formato evento/ensaio?

Você normalmente coleta e analisa dados no formato Evento/Ensaio porque você pode coletar diversos ensaios de uma vez. Por exemplo, um engenheiro produz um lote de 200 circuitos integrados. Todos os circuitos no lote têm de usar as mesmas configurações de processo. Esses 200 circuitos são 200 ensaios. Se o engenheiro coleta dados em outro lote com as mesmas configurações, os dados são uma linha separada.

Exemplo de formato evento/ensaio

No formato Evento/Ensaio, a variável de resposta usa duas colunas. Uma coluna contém o número de sucessos ou eventos de interesse. A outra coluna contém o número de ensaios.

Nesta worksheet, Sucessos contém o número de eventos, que indica quantos circuitos passaram em um teste de função elétrica. A opção Ensaios contém o número de ensaios, que indica o número total de chips que foram produzidos para aquela combinação das variáveis preditoras. Temperatura é um preditor contínuo. Matéria-prima é um preditor categórico. A primeira linha na worksheet mostra um lote de 200 chips feitos a uma temperatura e 1500 a partir da matéria-prima do Fornecedor B. 180 desses circuitos passaram no teste de função elétrica.
C1 C2 C3 C4
Sucessos Ensaios Temperatura Matéria-prima
180 200 1500 Fornecedor B
200 200 1400 Fornecedor A
196 200 1500 Fornecedor A
197 200 1400 Fornecedor B
190 200 1400 Fornecedor A
193 200 1400 Fornecedor B
198 200 1500 Fornecedor A
185 200 1500 Fornecedor B

Observação

Se os dados estiverem no formato Evento/Ensaio na worksheet, mas o número de ensaios por linha for pequeno, a confiabilidade e a interpretação das mudanças estatísticas. Por exemplo, se cada linha tem 1 ensaio, o número de eventos por linha é 0 ou 1. A análise desses dados é a mesma que se você tivesse dados de resposta/frequência binária sem uma coluna de frequência.

Por que usar dados no formato resposta/frequência binária?

Você normalmente coleta e analisa dados no formato Resposta/Frequência binária porque você pode registrar o resultado de cada ensaio separado conforme ocorre o resultado. Por exemplo, um consultor de marketing pesquisa clientes conforme eles saem de um supermercado sobre se o consumidor comprou uma nova marca de cereal. Conforme cada consumidor responde, o consultor registra suas informações individuais.

Exemplos de dados no formato de resposta/frequência binária

Em formato de Resposta/Frequência binária, a variável de resposta usa uma coluna. A coluna de resposta tem apenas dois valores, um dos quais indica o evento e o outro dos quais indica o não evento.

Nesta worksheet, Comprou é a resposta e indica se um consumidor comprou uma nova marca de cereal. O evento de resposta é Sim. Renda é um preditor contínuo e Crianças é um preditor categórico. A primeira linha na worksheet mostra que, o primeiro consumidor a quem o consultor perguntou, tinha filhos, tinha uma renda de $37.000, e comprou a nova marca de cereal.
C1 C2 C3
Comprou Renda Filhos
Sim 37 Sim
Não 47 Sim
Sim 34 Não
Sim 58 Não

Você pode incluir uma coluna de frequência para dados no formato Resposta/Frequência binária. Para a interpretação mais clara dos gráficos de resíduos versus ordem, combine somente observações consecutivas. A combinação de observações não-consecutivas pode criar ou ocultar padrões nos gráficos de resíduos versus ordem.

Nesta worksheet, as variáveis de resposta e preditores são as mesmas do exemplo anterior, mas os dados também incluem uma variável de frequência. A Frequência contém a contagem de consumidores que corresponde à combinação de valores de resposta e do preditor em cada linha. A primeira linha da worksheet mostra que 2 consumidores com crianças e com uma rende de $40.000 compraram a nova marca de cereal. Se esses não fossem os dois primeiros consumidores da pesquisa, a ordem dos dados na worksheet diferiria da ordem da coleta. Os padrões nos resíduos versus gráfico de ordem podem ser ocultados ou sem significado para os dados reordenados.
C1 C2 C3 C4
Comprou Renda Filhos Frequência
Sim 40 Sim 2
Não 40 Não 12
Sim 45 Sim 1
Não 45 Não 6