Pour garantir la validité de vos résultats, prenez en compte les indications suivantes lorsque vous collectez des données, effectuez une analyse et interprétez vos résultats.
Les données doivent inclure au moins deux colonnes de données numériques ou de date/d'heure.
Toutes les colonnes doivent posséder le même nombre de lignes.
L'effectif de l'échantillon doit être moyen à élevé, n ≥ 25
Bien que le nombre de données nécessaire dans une corrélation ne soit pas clairement spécifié, de grands échantillons permettent de mieux représenter les schémas de données et donnent des estimations plus précises.
La relation entre les variables doit être linéaire ou monotone
Si vos variables n'ont pas une relation linéaire ou monotone, les résultats de l'analyse de corrélation ne reflèteront pas fidèlement la résistance de la relation. Examinez le diagramme matriciel diagonal pour trouver d'autres relations.
Les valeurs inhabituelles peuvent avoir un impact important sur les résultats
Etant donné que les valeurs aberrantes peuvent avoir des répercussions de taille sur les résultats, utilisez le diagramme matriciel diagonal pour les identifier. Il convient d'examiner les valeurs aberrantes car elles peuvent fournir des informations utiles sur les données ou le procédé.
Les données doivent suivre une loi normale bivariée.
Les procédures relatives à la valeur de p pour la corrélation de Pearson et pour la corrélation de Spearman sont robustes aux écarts par rapport à la normalité. Les valeurs de p sont généralement exactes pour n ≥ 25, indépendamment de la population parente de l'échantillon.
Les intervalles de confiance pour la corrélation de Pearson sont sensibles à la normalité de la loi bivariée sous-jacente. Si les données s'écartent de la normalité, les intervalles de confiance peuvent être inexacts, quel que soit l'effectif de l'échantillon.
Les intervalles de confiance pour les corrélations de Spearman reposent sur des rangs et sont moins sensibles à l'hypothèse de la loi bivariée sous-jacente.