Regressionstabelle für CART® Regression

Hier finden Sie Definitionen und Anleitungen zur Interpretation für jede Statistik in der Regressionstabelle.

Knotenteilung

Minitab kann entweder den geringsten quadrierten Fehler oder die geringste absolute Abweichung als Kriterium für die Teilung der Knoten verwenden. Bei der Verwendung des geringsten quadrierten Fehlers wird die Summe der quadrierten Fehler minimiert. Bei der Verwendung der geringsten absoluten Abweichung wird die Summe der Absolutwerte der Fehler minimiert.

Optimaler Baum

Minitab zeigt zunächst Ergebnisse für den optimalen Baum oder aber für den kleinsten Baum, der einen Kriteriumswert innerhalb einer Anzahl von Standardfehlern des Kriteriumswerts des optimalen Baums aufweist. In der Standardeinstellung erhalten Sie Ergebnisse für den kleinsten Baum mit einem R2 innerhalb von 1 Standardfehler des maximalen R2 oder den kleinsten Baum mit einer absoluten Abweichung innerhalb von 1 Standardfehler des Minimums, je nach ausgewählter Option für Knotenteilungsmethode.

Interpretation

Bei vielen Datensätzen verbessert sich das Kriterium zunächst mit zunehmender Anzahl der Endknoten. Das Kriterium erreicht einen optimalen Wert und verschlechtert sich danach. Wenn der optimale Wert für einen Baum gilt, bei dem das Hinzufügen eines Knotens keinen bedeutsamen Unterschied für den Wert des Kriteriums bewirkt, können Sie überlegen, ob Sie einen kleineren Baum verwenden, dessen Leistung der des optimalen Baums fast gleichkommt. Kleinere Bäume sind leichter zu interpretieren.

Modellvalidierung

Minitab kann die Leistung des Baums mit einem Testdatensatz oder mit der Kreuzvalidierung mit K Faltungen validieren. Sie können auch festlegen, dass die Leistung des Baums nicht validiert wird. Wird bei der Analyse ein Testdatensatz verwendet, zeigt dieser Eintrag die Zielanteile für den Trainings- und den Testdatensatz an.

Interpretation

In der Standardeinstellung verwendet Minitab die Kreuzvalidierung mit K Faltungen, um die Leistung des Baums für Datensätze mit höchstens 5000 Fällen zu validieren. Für Datensätze mit mehr als 5000 Fällen verwendet Minitab einen Testdatensatz. Wenn bei der Analyse eine Validierungsmethode verwendet wird, stammt das Kriterium für die Auswahl des optimalen Baums aus der Validierungsmethode. Die Auswahl des optimalen Baums anhand der Validierungsmethode verhindert eine übermäßige Anpassung des Baums an die verfügbaren Daten, und Sie erhalten eine realistischere Beschreibung der Leistung des Baums für neue Daten.

Strafe für fehlenden Wert

Standardmäßig hat die Analyse keine Strafe für den fehlenden Wert, und diese Zeile ist nicht vorhanden. Durch die Strafe für einen fehlenden Wert erhalten Konkurrenten entsprechend dem Anteil der fehlenden Werte für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen fehlenden Werten in einem Knoten den primären Teiler darstellt.

Strafe für Kategorie auf hoher Stufe

Standardmäßig hat die Analyse keine Strafe für Kategorie auf hoher Stufe, und diese Zeile ist nicht vorhanden. Durch die Strafe für eine Kategorie auf hoher Stufe erhalten Konkurrenten entsprechend der Anzahl der kategorialen Stufen relativ zur Größe des Knotens für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen Stufen in einem Knoten den primären Teiler darstellt.

Gewichtungen

Gibt die Spalte an, mit der die Antwortvariable gewichtet wird.

Verwendete Zeilen

Aufgrund der Art und Weise, wie Verfahren für prädiktive Analysen fehlende Daten für Prädiktoren verarbeiten, entspricht die Anzahl der verwendeten Zeilen häufig der Größe des vollständigen Datensatzes. Teile der Daten können ungültig sein und aus der Analyse ausgeschlossen werden. So ist z. B. möglich, dass Zeilen mit fehlenden Werten der Antwortvariablen, fehlenden Gewichtungen, Gewichtungen von 0 oder negativen Gewichtungen bei der Analyse nicht berücksichtigt werden.

Nicht verwendete Zeilen

Die Anzahl der fehlenden Beobachtungen in der Antwortvariablen. Dazu gehören auch fehlende Werte oder Nullen in der Gewichtungsspalte.