Diagramm der relativen Variablenwichtigkeit für CART® Regression

Verwenden Sie das Diagramm der relativen Variablenwichtigkeit, um zu ermitteln, welche Prädiktoren die wichtigsten Variablen für den Baum sind.

Bei der relativen Variablenwichtigkeit werden die Wichtigkeitswerte standardisiert, sodass sie leichter interpretiert werden können. Die relative Wichtigkeit ist als die prozentuale Verbesserung in Bezug auf den wichtigsten Prädiktor definiert.

Eine wichtige Variable ist eine Variable, die als primärer oder Surrogat-Teiler im Baum verwendet wird. Die Variable mit dem höchsten Verbesserungswert wird als wichtigste Variable festgelegt, die übrigen Variablen folgen in entsprechender Reihenfolge. Bei der relativen Variablenwichtigkeit werden die Wichtigkeitswerte standardisiert, sodass sie leichter interpretiert werden können. Die relative Wichtigkeit ist als die prozentuale Verbesserung in Bezug auf den wichtigsten Prädiktor definiert.

Die relative Wichtigkeit wird berechnet, indem die Wichtigkeitswerte aller Variablen durch den größten Wichtigkeitswert der Variablen dividiert werden und das Ergebnis mit 100 % multipliziert wird.

Interpretation

Die relative Variablenwichtigkeit kann Werte von 0 % bis 100 % annehmen. Die wichtigste Variable hat immer eine relative Wichtigkeit von 100 %. Wird eine Variable überhaupt nicht im Baum verwendet, ist sie nicht wichtig.

In diesem Beispiel ist die wichtigste Prädiktorvariable Alkoholkonsum. Wenn der Beitrag der obersten Prädiktorvariablen, Alkoholkonsum, gleich 100 % ist, können Sie die anderen Variablen mit Alkoholkonsum vergleichen, um ihre Wichtigkeit zu ermitteln. So können Sie sich auf die wichtigsten Prädiktoren konzentrieren. In der folgenden Liste werden die nächstwichtigsten Variablen in diesem Baum beschrieben.
  • Primäre Substanz des Missbrauchs und Geplante Medikamentöse Therapie sind etwa 92 % so wichtig wie Alkoholkonsum.
  • Heroinkonsum ist etwa 55 % so wichtig wie Alkoholkonsum.
  • Primäre Einnahmeroute von Sub und Empfehlungsquelle sind etwa 48 % so wichtig wie Alkoholkonsum.

Obwohl diese Ergebnisse 33 Variablen mit positiver Wichtigkeit umfassen, liefert die relative Rangfolge Informationen darüber, wie viele Variablen für eine bestimmte Anwendung kontrolliert oder überwacht werden müssen. Ein steiler Abfall der relativen Wichtigkeit von einer Variablen zur nächsten Variablen können Ihnen die Entscheidung darüber erleichtern, welche Variablen zu kontrollieren oder zu überwachen sind. In diesen Daten weisen beispielsweise die drei wichtigsten Variablen Wichtigkeitswerte auf, die relativ nah beieinander liegen, bevor ein Abfall der relativen Wichtigkeit von fast 40 % zur nächsten Variablen zu beobachten ist. Außerdem weisen drei Variablen ähnliche Wichtigkeitswerte von annähernd 50 % auf. Sie können Variablen aus verschiedenen Gruppen entfernen und die Analyse wiederholen, um auszuwerten, wie Variablen in verschiedenen Gruppen die Prognosegenauigkeit in der Tabelle mit der Zusammenfassung des Modells beeinflussen.