Cook-Distanz bei mehreren Fällen

Dieses Makro berechnet die Erweiterung für mehrere Fälle des Cook-Distanzmaßes für einen einzelnen Fall. Je nach Größe des Datensatzes kann das Distanzmaß für alle Paare und Dreiergruppen von Fällen berechnet werden. Darüber hinaus kann das Distanzmaß für vom Benutzer ausgewählte Teilmengen von bis zu zehn Fällen berechnet werden. Zu den erzeugten Grafiken zählen ein Diagramm der Cook-Distanz für einzelne Fälle im Vergleich zu der Fallnummer, ein Diagramm zur Identifikation einflussreicher Paare von Fällen sowie Diagramme der Effekte festgelegter Paare, in denen der Effekt bzw. die Änderung der Cook-Distanz beim Hinzufügen eines dritten Falls zu einem festgelegten Paar von Fällen veranschaulicht wird. Ähnliche Funktionen sind für Modelle ohne konstanten Term verfügbar.

Herunterladen des Makros

Vergewissern Sie sich, dass Sie in Minitab den Speicherort des heruntergeladenen Makros angegeben haben. Wählen Sie Datei > Optionen > Allgemein aus. Navigieren Sie im Feld Speicherort für Makros zu dem Speicherort, an dem Sie Makrodateien ablegen.

Wichtig

Wenn Sie einen älteren Webbrowser verwenden und auf die Schaltfläche Herunterladen klicken, wird die Datei möglicherweise in Quicktime geöffnet; für dieses Programm wird dieselbe Dateinamenerweiterung „.mac“ wie für Minitab-Makros verwendet. Um das Makro zu speichern, klicken Sie mit der rechten Maustaste auf die Schaltfläche Herunterladen, und wählen Sie Ziel speichern unter aus.

Erforderliche Eingaben

  • Eine Spalte mit Werten der Antwortvariablen
  • Mehrere Spalten mit Prädiktorwerten

Optionale Eingaben

Halten
Hiermit geben Sie ein Paar von Fällen an, aus dem Diagramme der Effekte festgelegter Paare erstellt werden sollen.
NOCONSTANT
Geben Sie dies an, wenn kein konstanter Term im Modell enthalten sein soll. Dieser Befehl ist insbesondere beim Analysieren eines Mischungsmodells hilfreich, in welchem Fall der konstante Term aus dem Modell ausgelassen wird, um ein Rangdefizit in der XTX-Matrix zu vermeiden.
NOPAIR
Geben Sie dies an, wenn nicht für alle Paare von Fällen Distanzwerte berechnet werden sollen. Die Angabe dieses Unterbefehls setzt die Berechnung für alle Dreiergruppen, die Berechnung für eine oder mehrere ausgewählte Teilmengen oder die Verwendung des Unterbefehls HOLD voraus.
NOPLOTS
Hiermit geben Sie an, dass keine Bewertungsdiagramme angezeigt werden sollen.
REPORTALL
Geben Sie dies an, wenn alle berechneten Distanzmaße ausgegeben werden sollen. Bei Auswahl dieses Unterbefehls werden Vergleiche mit dem Schwellenwert unterbunden, da sämtliche Distanzmaße ausgegeben werden. Wenn Sie diesen Unterbefehl angeben, wird der Schwellenwert dennoch als visuelles Richtmaß in den Grafiken angezeigt.
SPAIRS C C C
Geben Sie diesen Unterbefehl an, um alle Distanzwerte für Fallpaare im Arbeitsblatt zu speichern. Geben Sie drei Spalten an, die ersten beiden für die Indizes und die dritte für die Distanzwerte.
STRIPLES C C C C
Geben Sie dies an, um alle Distanzwerte für Dreiergruppen von Fällen im Arbeitsblatt zu speichern. Geben Sie vier Spalten an, die ersten drei für die Indizes und die vierte für die Distanzwerte.
SUB1 K…K
Geben Sie diesen Unterbefehl an, wenn Sie den Distanzwert für eine ausgewählte Teilmenge von bis zu zehn Fällen (K) berechnen möchten. Dieser Unterbefehl ist besonders nützlich für Teilmengen von mehr als drei Fällen. Mit den Unterbefehlen SUB1, SUB2, SUB3, SUB4 und SUB5 können Sie bis zu fünf Teilmengen angeben.
THRESHOLD K
Hiermit geben Sie einen Schwellenwert an. Standardmäßig ist dieser Schwellenwert 1,00. In der Ausgabe werden alle berechneten Ergebnisse angezeigt, die größer oder gleich diesem Wert sind. Der angegebene Schwellenwert muss ein positiver numerischer Wert sein.
Dreibettzimmer
Geben Sie diesen Unterbefehl an, wenn das Makro die Cook-Distanz für alle Dreiergruppen von Fällen berechnen und mit dem standardmäßigen oder angegebenen Schwellenwert vergleichen soll.

Ausführen des Makros

Die Syntax zum Ausführen des Makros variiert leicht je nach verwendeter Version.

Im folgenden Beispiel werden die Stichprobendaten aus dem Datensatz „Modified Data on Wood Specific Gravity“ mit zwanzig Fällen und fünf Prädiktoren aus Rousseeuw und Leroy (1987) verwendet. Die berechneten Ergebnisse für die fünf ausgewählten Fall-Teilmengen entsprechen denen, die in Seaver, Triantis und Reeves (1999) angegeben sind.

Angenommen, die Werte der Antwortvariablen y, spezifisches Gewicht, befinden sich in C1, und die Werte der fünf Prädiktoren x1-x5 sind in den Spalten 2-6 enthalten. Es wurden fünf Fälle als Teilmengen ausgewählt.

Um das Makro auszuführen, wählen Sie Ansicht > Befehlszeile/Verlauf aus, und geben Sie Folgendes ein:
%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19.

Klicken Sie auf Durchlauf.

Ausgabe

Das Makro erzeugt die folgende Ausgabe.

Mehrere Case Cook-Entfernungsmodellinformationen ------------------------ Antwort:Y-Prädiktor%X2 X3 X4 - X5 C10Schwellenwert 1.00 ------------------------ *** Cook es Distance for Case Pairs *** Cases Cook es Distance 7 , 11 1.03 *** Cook es Distance for a Subset *** Cases:Cook-Distanz: 0.06 Fälle:Cook-Distanz: 0,33 Fälle:Cook-Distanz: 1.99 Fälle:Cook-Distanz: 0,49 Fälle: 4 , 6 , 8 , 19 Cook es Entfernung:53.93
Hinweis

Die grafische Ausgabe wird hier nicht gezeigt.

Weitere Informationen

Datensatzgröße

Das Limit der Datensatzgröße für die Berechnung der Cook-Distanz beträgt 60 für Paare von Fällen und 30 für Dreiergruppen von Paaren. Das Limit der Datensatzgröße für Berechnungen von Fall-Teilmengen beträgt 500. Sie können die Limits für Paare und Dreiergruppen von Paaren im Makro ändern. Wechseln Sie zum Ändern der Limits zum Abschnitt „MSE check, triple, nopair“ im Makro-Kode, und ändern Sie die Werte 30 und 60 in die gewünschten Umfänge. Beachten Sie, dass die Berechnungsdauer mit zunehmender Datensatzgröße ansteigt, insbesondere dann, wenn sämtliche Dreiergruppen berechnet werden.

Umkehrung ist nicht vorhanden

Beim Analysieren eines Mischungsmodells müssen Sie den Unterbefehl NONCONSTANT angeben. Andernfalls wird eine Fehlermeldung ausgegeben, in der darauf hingewiesen wird, dass die Umkehrung der XTX-Matrix nicht vorhanden ist. Im Allgemeinen erhalten Sie diese Fehlermeldung, wenn Prädiktoren (nahezu) perfekt korrelieren.

Fehlende Werte

Das Makro behandelt fehlende Werte, indem Zeilen mit fehlenden Daten entfernt werden. Dies wird in der Ausgabe und in den Grafiken gemeldet.

Literaturhinweise

Rousseeuw, P. J. und Leroy, A. M. (1987), „Robust Regression & Outlier Detection“, John Wiley & Sons, Inc.

(1999), „The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy“, Technometrics, 41, 340-351.