En regresión logística binaria, usted puede ingresar datos en dos formatos diferentes: formato de Respuesta binaria/Frecuencia y formato de Evento/Ensayo. Por lo general, el formato de los datos para el análisis debe coincidir con la forma en que se recopilaron los datos.

¿Por qué usar datos en el formato de evento/ensayo?

Normalmente los datos se recolectan y analizan en el formato de Evento/Ensayo, porque se pueden recopilar muchos ensayos a la vez. Por ejemplo, un ingeniero produce un lote de 200 circuitos integrados. Todos los circuitos del lote tienen que usar la misma configuración de proceso. Estos 200 circuitos son 200 ensayos. Si el ingeniero recolecta datos sobre otro lote con la misma configuración, los datos son una fila separada.

Ejemplo del formato de evento/ensayo

En el formato de Evento/Ensayo, la variable de respuesta utiliza dos columnas. Una columna contiene el número de éxitos o eventos de interés. La otra columna contiene el número de ensayos.

En esta hoja de trabajo, Éxitos contiene el número de eventos, que indica cuántos circuitos pasaron la prueba de funcionamiento eléctrico. Ensayos contiene el número de ensayos, que indica el número total de circuitos que se produjeron para esa combinación de variables predictoras. Temperatura es un predictor continuo. Materia prima es un predictor categórico. La primera fila de la hoja de trabajo muestra un lote de 200 circuitos hechos a una temperatura de 1500 con materia prima del proveedor B. Ciento ochenta de estos circuitos pasaron la prueba de funcionamiento eléctrico.
C1 C2 C3 C4
Éxitos Ensayos Temperatura Materia prima
180 200 1500 Proveedor B
200 200 1400 Proveedor A
196 200 1500 Proveedor A
197 200 1400 Proveedor B
190 200 1400 Proveedor A
193 200 1400 Proveedor B
198 200 1500 Proveedor A
185 200 1500 Proveedor B

Nota

Si los datos están en formato de Evento/Ensayo en la hoja de trabajo, pero el número de ensayos por fila es pequeño, la fiabilidad y la interpretación de los estadísticos cambian. Por ejemplo, si cada fila tiene 1 ensayo, entonces el número de eventos por fila es 0 o 1. El análisis de estos datos es igual que si se tuvieran datos de Respuesta binaria/Frecuencia sin una columna de frecuencia.

¿Por qué usar datos en el formato de respuesta binaria/frecuencia?

Normalmente los datos se recolectan y analizan en el formato de Respuesta binaria/Frecuencia, porque es posible registrar el resultado de cada ensayo separado a medida que se produce el resultado. Por ejemplo, un consultor de marketing encuesta a los consumidores cuando salen de un supermercado acerca de si compraron una nueva marca de cereal. Cuando cada consumidor responde, el consultor registra su información individual.

Ejemplo de datos en el formato de respuesta binaria/frecuencia

En el formato de Respuesta binaria/Frecuencia, la variable de respuesta utiliza una columna. La columna de respuesta tiene solo dos valores, uno de los cuales indica el evento y el otro indica el no evento.

En esta hoja de trabajo, Compró es la respuesta e indica si un consumidor compró una nueva marca de cereal. El evento de respuesta es . Ingreso es un predictor continuo y Niños es un predictor categórico. La primera fila de la hoja de trabajo muestra que el primer consumidor encuestado por el consultor tenía hijos, tenía un ingreso de $37,000 y compró la nueva marca de cereal.
C1 C2 C3
Compró Ingreso Niños
37
No 47
34 No
58 No

Usted puede incluir una columna de frecuencia para los datos que estén en formato de Respuesta binaria/Frecuencia. Para una interpretación más clara de la gráfica de residuos vs. orden, combine únicamente observaciones consecutivas. La combinación de observaciones no consecutivas puede crear u ocultar patrones en la gráfica de residuos vs. orden.

En esta hoja de trabajo, la variable de respuesta y la variable predictora son iguales a las del ejemplo anterior, pero los datos también incluyen una variable de frecuencia. Frecuencia contiene el conteo de consumidores que corresponde a la combinación de valor de respuesta y valor predictor en cada fila. La primera fila de la hoja de trabajo muestra que 2 consumidores con hijos y con un ingreso de $40,000 y compraron la nueva marca de cereal. Si estos no fueron los dos primeros consumidores que participaron en la encuesta, entonces el orden de los datos en la hoja de trabajo difiere del orden de recolección. Los patrones que indica la gráfica de residuos vs. orden pueden quedar ocultos o no tener sentido para los datos reordenados.
C1 C2 C3 C4
Compró Ingreso Niños Frecuencia
40 2
No 40 No 12
45 1
No 45 No 6