Auswahl der optimalen Anzahl von Basisfunktionen für MARS®-Regression

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Die Analyse erstellt so viele Basisfunktionen, wie Sie angeben, mit einer kleinen Änderung des Modells anhand der Informationen in jeder Funktion. Wenn die Analyse eine Validierungsmethode enthält, berechnet die Analyse den Wert des Modellauswahlkriteriums für die Trainingsdaten und die Testdaten für jede Anzahl von Basisfunktionen. Der optimale Wert aus den Testdaten bestimmt die Anzahl der Funktionen im optimalen Modell.

Methoden der Modellvalidierung

Optimierungskriterien, wie z. B. maximaler R2, sind tendenziell optimistisch, wenn Sie mit denselben Daten berechnet werden, mit denen Sie auch ein Modell anpassen. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten auswerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Je nach Auswahl der Verlustfunktion für die Analyse ist das Kriterium die maximale R2 oder die geringste mittlere absolute Abweichung (MAD). Minitab bietet zwei Validierungsmethoden: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.

Das optimale Modell mit K-facher Kreuzvalidierung

Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten 2000 Fälle oder weniger enthalten. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit Testdaten.

Verfahren der Kreuzvalidierung mit K Faltungen

Um die K-fache Kreuzvalidierung abzuschließen, führt die Minitab Statistical Software die folgenden Schritte aus.
  1. Teilen Sie die Daten in K zufällige Teilmengen mit möglichst gleicher Größe auf. Die Teilmengen werden Faltungen genannt.
  2. Für Falte k, k= 1, ..., K addieren Sie Basisfunktionen unter Verwendung der verbleibenden K-1-Faltenvon Daten. Berechnen Sie den Wert des Modellauswahlkriteriums für das Modell mit den Daten in der k-ten Falte.
  3. Wiederholen Sie Schritt 2 für alle K Faltungen.
  4. Mittelwert der Werte des Modellauswahlkriteriums über K-Falten für jede Anzahl von Funktionen. Die Anzahl der Funktionen mit dem besten Durchschnittswert ergibt das optimale Modell.

Das optimale Modell mit separatem Testset

Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung reserviert. Die übrigen Daten bilden den Trainingsdatensatz. Zunächst fügt Minitab Basisfunktionen mit dem Trainingssatz hinzu. Anschließend berechnet Minitab die Werte des Modellauswahlkriteriums für jede Anzahl von Funktionen mithilfe des Testsatzes. Die Anzahl der Funktionen mit dem besten Wert ergibt das optimale Modell.

Das optimale Modell ohne Validierung

Ohne Validierung verwendet Minitab den gesamten Datensatz, um das Modell anzupassen. Das endgültige Modell enthält in der Regel die größte Anzahl von Basisfunktionen.