Was ist die Kreuzvalidierung?

Bei der Kreuzvalidierung werden die Prognosefähigkeiten möglicher Modelle berechnet, um Sie beim Ermitteln der geeigneten Anzahl von Komponenten für das Modell zu unterstützen. Die Kreuzvalidierung wird empfohlen, wenn Ihnen die optimale Anzahl von Komponenten nicht bekannt ist. Wenn die Daten mehrere Antwortvariablen enthalten, validiert Minitab die Komponenten für alle Antworten gleichzeitig.

Methoden der Kreuzvalidierung

Minitab bietet drei Methoden für die Kreuzvalidierung:
Eins auslassen
Berechnet mögliche Modelle, wobei jedes Mal eine Beobachtung ausgeschlossen wird. Bei großen Datensätzen kann diese Methode sehr zeitaufwendig sein, da das Modell so oft neu berechnet wird wie Beobachtungen vorliegen.
Gruppe folgender Größe auslassen
Berechnet die Modelle, wobei jedes Mal mehrere Beobachtungen ausgeschlossen werden, so dass jedes Modell weniger häufig neu berechnet werden muss. Diese Methode ist besonders für große Datensätze geeignet.
Gemäß folgender Spalte auslassen
Berechnet die Modelle, wobei gleichzeitig die Beobachtungen ausgeschlossen werden, die in der im Arbeitsblatt erstellten Gruppenbezeichnerspalte die gleiche Zahl enthalten. Bei dieser Methode können Sie angeben, welche Beobachtungen gemeinsam ausgelassen werden. Wenn z. B. die Gruppenbezeichnerspalte die Zahlen 1, 2 und 3 enthält, werden bei der Neuberechnung des Modells alle Beobachtungen mit der Zahl 1 gemeinsam entfernt. Bei der folgenden Neuberechnung werden alle Beobachtungen mit der Zahl 2 entfernt usw. In diesem Fall wird das Modell insgesamt dreimal neu berechnet. Die Gruppenbezeichnerspalte muss genauso lang wie die Spalten der Antwortvariablen und Prädiktoren sein und darf keine fehlenden Werte aufweisen.

Verfahren der Kreuzvalidierung

Für jedes potenzielle Modell führt Minitab Folgendes aus:
  1. Je nach ausgewählter Kreuzvalidierungsmethode wird eine Beobachtung oder Gruppe von Beobachtungen ausgelassen.
  2. Das Modell wird ohne die Beobachtung bzw. Gruppe von Beobachtungen neu berechnet.
  3. Anhand des neu berechneten Modells wird der Wert der Antwortvariablen bzw. der kreuzvalidierte angepasste Wert für die entfernte Beobachtung bzw. Gruppe von Beobachtungen prognostiziert, und der kreuzvalidierte Residuenwert wird berechnet.
  4. Die Schritte 1 bis 3 werden wiederholt, bis alle Beobachtungen ausgelassen und angepasst wurden.
  5. Die Werte für die Summe der quadrierten Prognosefehler (PRESS) und das prognostizierte R2 werden berechnet.

Nach den Schritten 1 bis 5 für jedes Modell wählt Minitab das Modell mit der Anzahl von Komponenten aus, die den höchsten prognostizierten R2-Wert und den kleinsten PRESS-Wert ergibt. Bei mehreren Antwortvariablen wählt Minitab das Modell mit dem größten durchschnittlichen prognostizierten R2 und dem kleinsten durchschnittlichen PRESS-Wert aus.

Wenn keine Kreuzvalidierung ausgeführt wird, legt Minitab die Anzahl der Komponenten auf 10 fest, höchstens jedoch auf die Anzahl der Prädiktoren im Modell.

Statistiken der Kreuzvalidierung

Wenn Sie eine Kreuzvalidierung durchführen, zeigt Minitab eine zusätzliche Zusammenfassungstabelle mit den folgenden Statistiken an:
Kreuzvalidierte angepasste Werte

In der PLS-Regression ist der kreuzvalidierte angepasste Wert der prognostizierte Wert der Antwortvariablen für jede Beobachtung im Datensatz. Die Berechnung erfolgt individuell für jede Beobachtung. Daher kann die Beobachtung aus dem Modell ausgeschlossen werden, das für die Berechnung des prognostizierten Werts der Antwortvariablen für diese Beobachtung verwendet wird. Die kreuzvalidierten angepassten Werte werden während der Kreuzvalidierung berechnet. Sie variieren je nach der Anzahl der entfernten Beobachtungen bei jeder Neuberechnung des Modells.

Verwenden Sie die kreuzvalidierten angepassten Werte, um zu ermitteln, wie präzise das Modell die Daten prognostiziert. Kreuzvalidierte angepasste Werte ähneln normalen angepassten Werten, die angeben, wie gut das Modell an die Daten angepasst ist.

Kreuzvalidierte Residuen

In der PLS-Regression sind die kreuzvalidierten Residuen die Differenzen zwischen den Ist-Werten der Antwortvariablen und den kreuzvalidierten angepassten Werten. Der Wert des kreuzvalidierten Residuums variiert je nach der Anzahl der entfernten Beobachtungen bei jeder Neuberechnung des Modells während der Kreuzvalidierung.

Die Residuen messen die Prognosefähigkeiten eines Modells. Minitab verwendet die kreuzvalidierten Residuen, um die PRESS-Statistik zu berechnen.