Considerações de dados para Correlação

Para garantir que seus resultados sejam válidos, considere as seguintes diretrizes ao coletar dados, realizar a análise, e interpretar os resultados.

Os dados devem incluir pelo menos 2 colunas de dados no formato data/hora ou numérico
Todas as colunas devem ter o mesmo número de linhas.
Os dados devem ser contínuos ou ordinais
Se você tiver dados categóricos, você deve realizar Tabulação cruzada e qui-quadrado para examinar a associação entre as variáveis.
O tamanho amostral deve ser de médio para grande, n ≥ 25
Embora não haja diretrizes formais para a quantidade de dados necessária para uma correlação, amostras maiores indicam mais claramente os padrões nos dados e fornecem estimativas mais precisas.
A relação entre as variáveis deve ser linear ou monotônica
Se as variáveis não tiverem uma relação linear ou monotônica, os resultados da análise de correlação não refletirão com exatidão a força da relação. Examine a matriz de dispersão para procurar outros relacionamentos.
Valores incomuns podem exercer forte impacto sobre os resultados
Como valores incomuns podem ter um forte efeito nos resultados, use a matriz de dispersão para identificar esses valores. Você deve investigar outliers porque eles podem fornecer informações úteis sobre os seus dados ou processo.
Os dados devem seguir uma distribuição normal bivariada
Os procedimentos de valor-p para as correlações de Pearson e Spearman são robustos para desvios da normalidade. Os valores-p são geralmente precisos para n ≥ 25, independentemente da população de pais da amostra.
Os intervalos de confiança para a correlação de Pearson são sensíveis à normalidade da distribuição bivariada subjacente. Se os dados se desviarem da normalidade, os intervalos de confiança podem ser imprecisos, independentemente da magnitude do tamanho da amostra.
Os intervalos de confiança para as correlações de Spearman são baseados em classificações e são menos sensíveis à suposição de distribuição bivariada subjacente.