Consideraciones acerca de los datos para Prueba chi-cuadrada para asociación

Para asegurar que los resultados sean válidos, considere las siguientes pautas al recopilar datos, realizar el análisis e interpretar los resultados.

Recopilar datos sin procesar o datos de resumen
Usted puede usar dos columnas de datos sin procesar o datos resumidos en forma de una tabla de contingencia. Si los datos están en forma de frecuencia, utilice Tabulación cruzada y Chi-cuadrada.
Nota

No se permiten valores faltantes en una tabla de contingencia.

La muestra se debe seleccionar aleatoriamente

Para cada nivel de X, usted recolecta una muestra aleatoria de elementos que son representativos del proceso. Los niveles de la variable X pueden representar diferentes procesos o ubicaciones. Por ejemplo, si usted tiene varias sucursales que procesan facturas, debería recolectar una muestra de facturas de cada sucursal.

Las muestras aleatorias se utilizan para hacer generalizaciones, o inferencias, sobre una población. Si los datos no se recopilan aleatoriamente, los resultados podrían no ser válidos.

Cada observación debe ser independiente de todas las demás observaciones

La independencia de las observaciones es un supuesto crítico para la prueba de chi-cuadrada de asociación.

Los datos deben ser categóricos
Las variables categóricas contienen un número finito y contable de categorías o grupos distintos. Los datos categóricos podrían no tener un orden lógico. Por ejemplo, los predictores categóricos incluyen sexo, tipo de material y método de pago.
Todos los datos deben estar categorizados en categorías mutuamente excluyentes, sin superposición.

La prueba de chi-cuadrada de asociación no se puede realizar cuando las categorías de las variables se superponen. Por lo tanto, cada observación debe estar categorizada en una y solo una categoría.

Los conteos esperados no deben ser demasiado pequeños
Cada muestra debe ser lo suficientemente grande como para que haya una probabilidad razonable de observar resultados en cada categoría. Si los conteos esperados son demasiado bajos, el valor p de la prueba pudiera no ser exacto. Minitab indica si los conteos esperados son demasiado bajos y qué tan grande debe ser cada muestra para garantizar la validez de la prueba.
Si el conteo esperado de una categoría es demasiado bajo, usted podría combinar esa categoría con categorías adyacentes para alcanzar el conteo esperado mínimo. Las categorías se deben combinar solo cuando sea necesario, porque se pierde información al combinar categorías.