Consideraciones acerca de los datos para Correlación

Para asegurar que los resultados sean válidos, considere las siguientes pautas al recopilar datos, realizar el análisis e interpretar los resultados.

Los datos deben incluir al menos 2 columnas de datos numéricos o de fecha/hora: Todas las columnas deben tener el mismo número de filas.
Los datos deben ser continuos u ordinales: Si usted tiene datos categóricos, debe ejecutar Tabulación cruzada y Chi-cuadrada para examinar la asociación entre las variables.
El tamaño de la muestra debe ser de medio a grande, n ≥ 25: Aunque no hay directrices formales sobre la cantidad de datos que se necesita para una correlación, las muestras más grandes indican patrones en los datos con mayor claridad y proporcionan estimaciones más exactas.
La relación entre las variables debe ser lineal o monótona: Si las variables no tienen una relación lineal o monótona, los resultados del análisis de correlación no reflejarán con exactitud la fuerza de la relación. Examine la gráfica de matriz para buscar otras relaciones.
Los valores poco comunes pueden tener un gran efecto en los resultados: Puesto que los valores poco comunes pueden tener un gran efecto en los resultados, utilice la gráfica de matriz para identificar estos valores. Los valores atípicos se deben investigar, porque pueden proporcionar información útil sobre los datos o el proceso.
Los datos deben seguir una distribución normal bivariada: Los procedimientos del valor p para las correlación de Pearson y de Spearman son robustos ante desviaciones de la normalidad. Los valores p generalmente son exactos para n ≥ 25, independientemente de la población de origen de la muestra.; Los intervalos de confianza para la correlación de Pearson son sensibles a la normalidad de la distribución bivariada subyacente. Si los datos se desvían de la normalidad, entonces los intervalos de confianza podrían ser inexactos, independientemente de la magnitud del tamaño de la muestra.; Los intervalos de confianza para las correlaciones de Spearman se basan en rangos y son menos sensibles al supuesto de la distribución bivariada subyacente.