Diagramm der relativen Variablenwichtigkeit für Random Forests®-Klassifikation

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über den gesamten Wald hinweg vorgenommen werden. Die Variable mit dem höchsten Verbesserungswert wird als wichtigste Variable festgelegt, die übrigen Variablen folgen in der Reihenfolge ihrer Wichtigkeit. Bei der relativen Variablenwichtigkeit werden die Wichtigkeitswerte standardisiert, sodass sie leichter interpretiert werden können. Die relative Wichtigkeit ist definiert als die prozentuale Verbesserung in Bezug auf den wichtigsten Prädiktor, der eine Wichtigkeit von 100 % aufweist.

Die relative Wichtigkeit wird berechnet, indem die Wichtigkeitswerte aller Variablen durch den größten Wichtigkeitswert der Variablen dividiert werden und das Ergebnis mit 100 % multipliziert wird.

Interpretation

Die relative Variablenwichtigkeit kann Werte von 0 % bis 100 % annehmen. Die wichtigste Variable hat immer eine relative Wichtigkeit von 100 %. Befindet sich eine Variable in keinem der Bäume, ist sie nicht wichtig.

Minitab verwendet zwei Methoden zur Berechnung der Werte für die relative Wichtigkeit der Variablen im Diagramm der Variablenwichtigkeit. Für Permutation wertet Minitab aus, wie viel schlechter die Leistung des Modells ist, indem das Modell erneut mit den permutierten Werten einer Variablen im Diagramm validiert wird. Für Gini summiert Minitab die Verbesserungen, die die Variable für alle Bäume bewirkt. Permutation ist die Standardmethode für Datensätze mit höchstens 5000 Einträgen. Erwägen Sie, ob Sie Permutation für größere Datensätze verwenden sollten, wenn die Analyse nicht zu lange dauert und die Identifizierung wichtiger Prädiktoren ein wichtiges Ziel ist.

Die wichtigste Prädiktorvariable ist „Hauptgefäße“. Wenn der Beitrag der obersten Prädiktorvariablen, „Hauptgefäße“, 100 % beträgt, hat die nächstwichtige Variable in diesem Beispiel, „THAL“, einen Beitrag von 89,7%. Das heißt, dass „THAL“ in diesem Klassifikationsmodell 89,7% so wichtig wie „Hauptgefäße“ ist.