Die Anzahl der insgesamt verfügbaren Prädiktoren für den Baum. Dies ist die Summe der angegebenen stetigen und kategorialen Prädiktoren.
Die Anzahl der wichtige Prädiktoren im Baum. Wichtige Prädiktoren sind die Variablen, die als primärer oder Surrogat-Teiler verwendet werden.
Mit dem Diagramm „Relative Variablenwichtigkeit“ können Sie die Rangfolge der relative Variablenwichtigkeit anzeigen. Wenn z. B. 10 von 20 Prädiktoren im Baum wichtig sind, werden die Variablen im Diagramm „Relative Variablenwichtigkeit“ in der Reihenfolge ihrer Wichtigkeit angezeigt.
Ein Endknoten ist ein abschließender Knoten, der nicht weiter geteilt werden kann.
Sie können Terminalknoteninformationen nutzen, um Vorhersagen zu treffen.
Die minimale Endknotengröße ist der Endknoten mit der kleinsten Anzahl von Fällen.
Standardmäßig legt Minitab die minimal zulässige Anzahl der Fälle für einen Endknoten auf drei Fälle fest. Die minimale Endknotengröße in einem Baum kann jedoch größer als die von der Analyse zugelassene Anzahl sein. Sie können diesen Schwellenwert im Unterdialogfeld Optionen ändern.
R2 ist der Prozentsatz der Streuung in der Antwortvariablen, den das Modell erklärt. Ausreißer haben eine größere Auswirkung auf das R2 als auf die MAD und den MAPE.
Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelleeine R2-Statistik für den Trainingsdatensatz und eine R2-Statistik für die Validierungsmethode. Wenn die Validierungsmethode eine k-fache Kreuzvalidierung ist, verwendet die Validierung jede Faltung, wenn der Baumbau diese Faltung ausschließt. Die R2-Statistik aus den Validierungsergebnissen ist typischerweise ein besseres Maß dafür, wie das Modell für neue Daten funktioniert.
Verwenden Sie das R2, um zu bestimmen, wie gut das Modell für Ihre Daten passend ist. Je höher das R2, desto besser ist das Modell für Ihre Daten passend. R2 liegt immer zwischen 0 % und 100 %.
Eine Validierung R2 , die wesentlich kleiner ist als das Training R2 , zeigt an, dass der Baum die Antwortwerte für neue Fälle möglicherweise nicht so gut vorhersagt und der Baum zum aktuellen Datensatz passt.
Die Wurzel des mittleren quadrierten Fehlers (RMSE) ist ein Maß für die Genauigkeit des Baums. Ausreißer haben eine größere Auswirkung auf den RMSE als auf die MAD und den MAPE.
Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle eine RMSE-Statistik für den Trainingsdatensatz und eine RMSE-Statistik für die Validierungsergebnisse. Wenn die Validierungsmethode eine k-fache Kreuzvalidierung ist, verwendet die Validierung jede Faltung, wenn der Baumbau diese Faltung ausschließt. Die Validierungs-RMSE-Statistik ist typischerweise ein besseres Maß dafür, wie das Modell für neue Daten funktioniert.
Hiermit können Sie die Anpassungen verschiedener Bäume vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Ein Test-RMSE, der wesentlich höher ist als das Trainings-RMSE, zeigt an, dass der Baum möglicherweise nicht die Antwortwerte für neue Fälle vorhersagt, und der Baum passt zum aktuellen Datensatz.
Der mittlere quadrierte Fehler (MSE) ist ein Maß für die Genauigkeit des Baums. Ausreißer haben eine größere Auswirkung auf den MSE als auf die MAD und den MAPE.
Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle eine MSE-Statistik für den Trainingsdatensatz und eine MSE-Statistik für die Validierungsergebnisse. Wenn die Validierungsmethode eine k-fache Kreuzvalidierung ist, verwendet die Validierung jede Faltung, wenn das Modell diese Faltung ausschließt. Die Validierungs-MSE-Statistik ist typischerweise ein besseres Maß dafür, wie das Modell für neue Daten funktioniert.
Hiermit können Sie die Anpassungen verschiedener Bäume vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Ein Validierungs-MSE, der wesentlich höher ist als der Trainings-MSE, zeigt an, dass der Baum möglicherweise nicht die Antwortwerte für neue Fälle vorhersagt, und der Baum passt zum aktuellen Datensatz.
Die mittlere absolute Abweichung (MAD) drückt die Genauigkeit in der gleichen Einheit wie die Daten aus. Auf diese Weise kann der Fehleranteil leichter erfasst werden. Ausreißer haben eine geringere Auswirkung auf den MAD als auf das R2, die RMSE und den MSE.
Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle eine MAD-Statistik für den Trainingsdatensatz und eine MAD-Statistik für die Validierungsergebnisse. Wenn die Validierungsmethode eine k-fache Kreuzvalidierung ist, verwendet die Validierung jede Faltung, wenn das Modell diese Faltung ausschließt. Die Validierungs-MAD-Statistik ist typischerweise ein besseres Maß dafür, wie das Modell für neue Daten funktioniert.
Hiermit können Sie die Anpassungen verschiedener Bäume vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Ein Validierungs-MAD, der wesentlich höher ist als der Trainings-MAD, zeigt an, dass der Baum möglicherweise nicht die Antwortwerte für neue Fälle vorhersagt, und der Baum passt zum aktuellen Datensatz.
Der mittlere absolute Prozentfehler (MAPE) gibt die Genauigkeit als Prozentsatz des Fehlers an. Da es sich bei dem MAPE um einen Prozentsatz handelt, ist dieser Wert möglicherweise verständlicher als die anderen Genauigkeitsmaße. Wenn der MAPE beispielsweise durchschnittlich 0,05 beträgt, ist das durchschnittliche Verhältnis zwischen dem angepassten Fehler und dem tatsächlichen Wert für alle Fälle 5 %. Ausreißer haben eine geringere Auswirkung auf den MAPE als auf das R2, die RMSE und den MSE.
In einigen Fällen kann jedoch ein sehr großer MAPE auftreten, obwohl der Baum gut für die Daten passend zu sein scheint. Untersuchen Sie das angepasste vs. tatsächliche Antwortwertdiagramm, um zu sehen, ob irgendwelche Datenwerte nahe bei 0 liegen. Da beim MAPE der absolute Fehler durch die tatsächlichen Daten dividiert wird, können Werte, die nah bei 0 liegen, den MAPE stark ansteigen lassen.
Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle eine MAPE-Statistik für den Trainingsdatensatz und eine MAPE-Statistik für die Validierungsergebnisse. Wenn die Validierungsmethode eine k-fache Kreuzvalidierung ist, verwendet die Validierung jede Faltung, wenn das Modell diese Faltung ausschließt. Die Validierungs-MAPE-Statistik ist typischerweise ein besseres Maß dafür, wie das Modell für neue Daten funktioniert.
Hiermit können Sie die Anpassungen verschiedener Bäume vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Ein Validierungs-MAPE, der wesentlich höher ist als der Trainings-MAPE, zeigt an, dass der Baum möglicherweise nicht die Antwortwerte für neue Fälle vorhersagt, und der Baum passt zum aktuellen Datensatz.