Befolgen Sie beim Erfassen von Daten, Durchführen der Analyse und Interpretieren der Ergebnisse die folgenden Richtlinien, um sicherzustellen, dass die Ergebnisse gültig sind.
Die Daten müssen mindestens zwei Spalten mit numerischen oder Datums-/Uhrzeitdaten umfassen
Alle Spalten müssen die gleiche Anzahl von Zeilen aufweisen.
Die Daten müssen stetig oder ordinal sein
Wenn Sie mit kategorialen Daten arbeiten, verwenden Sie Kreuztabelle und
Chi-Quadrat-Test, um die Assoziation zwischen den Variablen zu untersuchen.
Der Stichprobenumfang sollte mittel bis groß sein, n ≥ 25
Auch wenn es keine formalen Richtlinien zur Menge der für eine Korrelation benötigten Daten gibt, zeigen größere Stichproben Muster in den Daten deutlicher und liefern genauere Schätzwerte.
Die Beziehung zwischen den Variablen muss linear oder monoton sein
Wenn Ihre Variablen keine lineare oder monotone Beziehung aufweisen, geben die Ergebnisse der Korrelationsanalyse die Stärke der Beziehung nicht genau wieder. Untersuchen Sie das Matrixplot, und suchen Sie nach anderen Beziehungen.
Ungewöhnliche Werte können sich stark auf die Ergebnisse auswirken
Da ungewöhnliche Werte einen starken Effekt auf die Ergebnisse haben können, identifizieren Sie diese Werte mit dem Matrixplot. Ausreißer sollten untersucht werden, da sie nützliche Informationen über die Daten oder den Prozess liefern können.
Die Daten sollten einer bivariaten Normalverteilung folgen
Die p-Wert-Verfahren für Korrelationen nach Pearson und nach Spearman sind gegenüber Abweichungen von der Normalverteilung robust. Die p-Werte sind im Allgemeinen genau für n ≥ 25, ungeachtet der übergeordneten Grundgesamtheit der Stichprobe.
Die Konfidenzintervalle für die Pearson-Korrelation sind empfindlich gegenüber Abweichungen von der Normalverteilung der zugrunde liegenden bivariaten Verteilung. Wenn die Daten von der Normalverteilung abweichen, können die Konfidenzintervalle ungeachtet der Größe des Stichprobenumfangs ungenau sein.
Die Konfidenzintervalle für Spearman-Korrelationen basieren auf einer Rangfolge, und sie sind weniger empfindlich gegenüber Abweichungen von der angenommenen zugrunde liegenden bivariaten Verteilung.