Tabelle mit der Zusammenfassung des Modells für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Hier finden Sie Definitionen und Anleitungen zur Interpretation für die Tabelle mit der Zusammenfassung des Modells.
Hinweis

Minitab zeigt die Ergebnisse sowohl für den Trainings- als auch für den Testdatensatz an. Die Testergebnisse geben an, ob das Modell die Werte der Antwortvariablen für neue Beobachtungen angemessen prognostizieren oder die Beziehungen zwischen der Antwortvariablen und den Prädiktorvariablen adäquat zusammenfassen kann. Verwenden Sie die Trainingsergebnisse, um auszuwerten, ob das Modell übermäßig angepasst ist.

Prädiktoren gesamt

Die Gesamtzahl der für das TreeNet®-Modell verfügbaren Prädiktoren. Die Gesamtzahl ist die Summe der angegebenen stetigen und kategorialen Prädiktoren.

Wichtige Prädiktoren

Die Anzahl der wichtigen Prädiktoren im TreeNet®-Modell. Wichtige Prädiktoren haben Wichtigkeitswerte, die größer als 0,0 sind. Mit dem Diagramm „Relative Variablenwichtigkeit“ können Sie die Rangfolge der relativen Variablenwichtigkeit anzeigen. Wenn z. B. 10 von 20 Prädiktoren im Modell wichtig sind, werden die Variablen im Diagramm „Relative Variablenwichtigkeit“ in der Reihenfolge ihrer Wichtigkeit angezeigt.

Anzahl der aufgebauten Bäume

Standardmäßig baut Minitab 300 kleine CART®-Bäume auf, um das TreeNet®-Modell zu erzeugen. Dies ist ein guter Wert für eine anfängliche Untersuchung der Daten, aber möglicherweise empfiehlt es sich, mehr Bäume zu erzeugen, um ein endgültiges Modell zu erstellen. Wenn Sie die Anzahl der aufgebauten Bäume ändern möchten, öffnen Sie das Unterdialogfeld Optionen.

Optimale Anzahl von Bäumen

Die optimale Anzahl von Bäumen entspricht dem höchsten R2 oder der niedrigsten MAD.

Wenn die optimale Anzahl von Bäumen nahe an der maximalen Anzahl von Bäumen liegt, die das Modell aufbaut, ziehen Sie in Betracht, eine Analyse mit mehr Bäumen auszuführen. Wenn Sie also 300 Bäume aufbauen und die optimale Anzahl als 298 ermittelt wird, erstellen Sie das Modell mit einer größeren Anzahl von Bäumen neu. Liegt die optimale Anzahl weiterhin nahe der maximalen Anzahl, erhöhen Sie die Anzahl der Bäume weiter.

R-Quadrat

R2 ist der Prozentsatz der Streuung in der Antwortvariablen, den das Modell erklärt. Ausreißer haben eine größere Auswirkung auf das R2 als auf die MAD und den MAPE.

Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle das R2 für den Trainingsdatensatz und das R2 für den Testdatensatz. Wenn die Validierungsmethode die Kreuzvalidierung mit K Faltungen ist, entspricht der Testdatensatz jeder Faltung, wenn diese Faltung bei der Modellerstellung ausgeschlossen wird. Das R2 für den Test ist im Allgemeinen ein besseres Maß für die Eignung des Modells für neue Daten.

Interpretation

Verwenden Sie das R2, um zu bestimmen, wie gut das Modell für Ihre Daten passend ist. Je höher das R2, desto besser ist das Modell für Ihre Daten passend. R2 liegt immer zwischen 0 % und 100 %.

Sie können die Bedeutung unterschiedlicher Werte für das R2 grafisch veranschaulichen. Das erste Diagramm veranschaulicht ein einfaches Regressionsmodell, das 85,5 % der Streuung in der Antwortvariablen erklärt. Das zweite Diagramm veranschaulicht ein Modell, das 22,6 % der Streuung in der Antwortvariablen erklärt. Je mehr Streuung durch das Modell erklärt wird, desto näher liegen die Datenpunkte an den angepassten Werten. Wenn ein Modell theoretisch 100 % der Streuung erklären könnte, wären die angepassten Werte immer gleich den beobachteten Werten, und alle Datenpunkte würden auf der Linie y = x liegen.

Ein R2 für den Test, das erheblich kleiner als das R2 für das Training ist, deutet darauf hin, dass das Modell möglicherweise besser für den aktuellen Datensatz passend ist als es die Werte der Antwortvariablen für neue Fälle prognostizieren kann.

Wurzel des mittleren quadrierten Fehlers (RMSE)

Die Wurzel des mittleren quadrierten Fehlers (RMSE) ist ein Maß für die Genauigkeit des Modells. Ausreißer haben eine größere Auswirkung auf die RMSE als auf die MAD und den MAPE.

Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle eine RMSE für den Trainingsdatensatz und eine RMSE für den Testdatensatz. Wenn die Validierungsmethode die Kreuzvalidierung mit K Faltungen ist, entspricht der Testdatensatz jeder Faltung, wenn diese Faltung bei der Modellerstellung ausgeschlossen wird. Der RMSE für den Test ist im Allgemeinen ein besseres Maß für die Eignung des Modells für neue Daten.

Interpretation

Hiermit können Sie die Anpassungen verschiedener Modelle vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Eine RMSE für den Test, die erheblich größer als die RMSE für das Training ist, deutet darauf hin, dass das Modell möglicherweise besser für den aktuellen Datensatz passend ist als es die Werte der Antwortvariablen für neue Fälle prognostizieren kann.

Mittlerer quadrierter Fehler (MSE)

Der mittlere quadrierte Fehler (MSE) ist ein Maß für die Genauigkeit des Modells. Ausreißer haben eine größere Auswirkung auf den MSE als auf die MAD und den MAPE.

Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle einen MSE für den Trainingsdatensatz und einen MSE für den Testdatensatz. Wenn die Validierungsmethode die Kreuzvalidierung mit K Faltungen ist, entspricht der Testdatensatz jeder Faltung, wenn diese Faltung bei der Modellerstellung ausgeschlossen wird. Der MSE für den Test ist im Allgemeinen ein besseres Maß für die Eignung des Modells für neue Daten.

Interpretation

Hiermit können Sie die Anpassungen verschiedener Modelle vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Ein MSE für den Test, der erheblich größer als der MSE für das Training ist, deutet darauf hin, dass das Modell möglicherweise besser für den aktuellen Datensatz passend ist als es die Werte der Antwortvariablen für neue Fälle prognostizieren kann.

Mittlere absolute Abweichung (MAD)

Die mittlere absolute Abweichung (MAD) drückt die Genauigkeit in der gleichen Einheit wie die Daten aus. Auf diese Weise kann der Fehleranteil leichter erfasst werden. Ausreißer haben eine geringere Auswirkung auf die MAD als auf das R2, die RMSE und den MSE.

Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle eine MAD für den Trainingsdatensatz und eine MAD für den Testdatensatz. Wenn die Validierungsmethode die Kreuzvalidierung mit K Faltungen ist, entspricht der Testdatensatz jeder Faltung, wenn diese Faltung bei der Modellerstellung ausgeschlossen wird. Der MAD für den Test ist im Allgemeinen ein besseres Maß für die Eignung des Modells für neue Daten.

Interpretation

Hiermit können Sie die Anpassungen verschiedener Modelle vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Eine MAD für den Test, die erheblich größer als die MAD für das Training ist, deutet darauf hin, dass das Modell möglicherweise besser für den aktuellen Datensatz passend ist als es die Werte der Antwortvariablen für neue Fälle prognostizieren kann.

Mittlerer absoluter prozentualer Fehler (MAPE)

Der mittlere absolute prozentuale Fehler (MAPE) drückt die Genauigkeit als Prozentsatz des Fehlers aus. Da es sich bei dem MAPE um einen Prozentsatz handelt, ist dieser Wert möglicherweise verständlicher als die anderen Genauigkeitsmaße. Wenn der MAPE beispielsweise durchschnittlich 0,05 beträgt, ist das durchschnittliche Verhältnis zwischen dem angepassten Fehler und dem tatsächlichen Wert für alle Fälle 5 %. Ausreißer haben eine geringere Auswirkung auf den MAPE als auf das R2, die RMSE und den MSE.

In einigen Fällen kann jedoch ein sehr großer MAPE auftreten, obwohl das Modell gut für die Daten passend zu sein scheint. Untersuchen Sie das Diagramm der angepassten vs. tatsächlichen Werte der Antwortvariablen auf Datenwerte, die nahe 0 liegen. Da beim MAPE der absolute Fehler durch die tatsächlichen Daten dividiert wird, können Werte, die nah bei 0 liegen, den MAPE stark ansteigen lassen.

Wenn Sie eine Validierungsmethode verwenden, enthält die Tabelle einen MAPE für den Trainingsdatensatz und einen MAPE für den Testdatensatz. Wenn die Validierungsmethode die Kreuzvalidierung mit K Faltungen ist, entspricht der Testdatensatz jeder Faltung, wenn diese Faltung bei der Modellerstellung ausgeschlossen wird. Der MAPE für den Test ist im Allgemeinen ein besseres Maß für die Eignung des Modells für neue Daten.

Interpretation

Hiermit können Sie die Anpassungen verschiedener Modelle vergleichen. Kleinere Werte weisen auf eine bessere Anpassung hin. Ein MAPE für den Test, der erheblich größer als der MAPE für das Training ist, deutet darauf hin, dass das Modell möglicherweise besser für den aktuellen Datensatz passend ist als es die Werte der Antwortvariablen für neue Fälle prognostizieren kann.