Wichtige Variablen

Minitab Statistical Software bietet zwei Methoden, zur Einstufung der Bedeutung der Variablen in eine Rangfolge.

Permutation

Die Permutationsmethode verwendet die Daten von außerhalb des Segments. Klassifizieren Sie für einen bestimmten Baum j in der Analyse die Daten von außerhalb des Segments mit dem Baum. Wiederholen Sie diese Klassifizierung für jeden Baum im Wald. Berechnen Sie dann den Abstand für jede Zeile, die mindestens einmal in den Daten von außerhalb des Segments vorkommt. Der Abstand ist der Anteil der Stimmen für die wahre Klasse abzüglich des maximalen Anteils der Stimmen unter den anderen Klassen. Angenommen, eine Zeile befindet sich in Klasse A der verfügbaren Klassen A, B und C. Die Zeile erscheint in den Daten von außerhalb des Segments 100 Mal mit den folgenden Klassifizierungen:
  • A = 87
  • B = 9
  • C = 4

Dann beträgt der Abstand für diese Zeile 0,87 – 0,09 = 0,78.

Der durchschnittliche Abstand der Daten von außerhalb des Segments ist der durchschnittliche Abstand für alle Datenzeilen.

Um die Bedeutung der Variablen zu bestimmen, permutieren Sie die Werte einer Variablen xm nach dem Zufallsprinzip durch die Daten von außerhalb des Segments. Lassen Sie die Antwortwerte und die anderen Prädiktorwerte gleich. Verwenden Sie dann die gleichen Schritte zur Berechnung des durchschnittlichen Abstands für die permutierten Daten, .

Die Bedeutung für die Variable xm ergibt sich aus der Differenz der beiden Durchschnitte:

Dabei gilt: ist der durchschnittliche Abstand vor der Permutation. Minitab rundet Werte kleiner als 10–7 auf 0.

Wiederholen Sie diesen Vorgang für jede Variable in der Analyse. Die Variable mit der höchsten Wichtigkeit ist die wichtigste Variable. Die Werte für die relative Variablenwichtigkeit werden durch die Bedeutung der wichtigsten Variablen skaliert:

Gini

Jeder Klassifikationsbaum ist eine Auflistung von Teilungen. Jede Teilung trägt zur Verbesserung des Baums bei.

Mit der folgenden Formel wird die Verbesserung an einem einzelnen Knoten berechnet:

Die Verbesserung für einen einzelnen Baum ist die Summe der Quadrate der Verbesserungen für die einzelnen Knoten:

Dabei gilt: ist die Anzahl der Knoten, die geteilt werden, und für jeden Knoten , wobei die Variable von Interesse nicht der Teiler ist.

Die Verbesserung für einen ganzen Wald ist die Summe der quadratischen Bedeutungen aller Bäume im Wald:

Dabei gilt: ist die Anzahl der Bäume im Wald und ist die Anzahl der Knoten, die im Baum aufgeteilt wurden .

Die Berechnung der Knotenverunreinigung ähnelt der Gini-Methode. Weitere Einzelheiten zur Gini-Methode finden Sie unter Knotenteilungsmethoden in CART® Klassifikation.

Die Variable mit der höchsten Bedeutung ist die wichtigste Variable. Die Werte für die relative Variablenwichtigkeit werden durch die Bedeutung der wichtigsten Variablen skaliert:

Durchschnittliche –Log-Likelihood

Bei einer binären Antwortvariablen berechnet Minitab den Durchschnitt des negativen Log-Likelihood-Werts. Die Berechnungen hängen von der Validierungsmethode ab.

Daten von außerhalb des Segments

Bei der Berechnung werden Stichproben der Daten von außerhalb des Segments von jedem Baum im Wald verwendet. Aufgrund der Natur von Stichproben der Daten von außerhalb des Segments sollten Sie davon ausgehen, dass Sie verschiedene Kombinationen von Bäumen verwenden, um den Beitrag zur Log-Likelihood für jede Zeile in den Daten zu finden.

Für einen bestimmten Baum im Wald ist eine Klassenabstimmung für eine Zeile in den Daten von außerhalb des Segments die prognostizierte Klasse für die Zeile aus dem einzelnen Baum. Die prognostizierte Klasse für eine Zeile von Daten von außerhalb des Segment ist die Klasse mit der höchsten Stimmenanzahl unter allen Bäumen im Wald. Die prognostizierte Klassenwahrscheinlichkeit für eine Zeile in den Daten von außerhalb des Segments ist das Verhältnis zwischen der Anzahl der Stimmen für die Klasse und den Gesamtstimmen für die Zeile. Die Wahrscheinlichkeitsberechnungen ergeben sich aus diesen Wahrscheinlichkeiten:

Dabei gilt Folgendes:

und ist die berechnete Ereigniswahrscheinlichkeit für Zeile i in Daten von außerhalb des Segments.

Notation für Daten von außerhalb des Segments

BegriffBeschreibung
nAußerhalb des SegmentsAnzahl der Zeilen, die mindestens einmal Daten von außerhalb des Segments sind
yi, Außerhalb des Segmentsbinärer Antwortwert von Fall i in den Daten von außerhalb des Segments. yi, Außerhalb des Segments = 1 für Ereignisklasse, sonst 0.

Testdatensatz

Für einen bestimmten Baum im Wald ist eine Klassenabstimmung für eine Zeile im Testdatensatz die prognostizierte Klasse für die Zeile aus dem einzelnen Baum. Die prognostizierte Klasse für eine Zeile im Testdatensatz ist die Klasse mit der höchsten Stimmenanzahl unter allen Bäumen im Wald. Die prognostizierte Klassenwahrscheinlichkeit für eine Zeile im Testdatensatz ist das Verhältnis zwischen der Anzahl der Stimmen für die Klasse und den Gesamtstimmen für die Zeile. Die Wahrscheinlichkeitsberechnungen ergeben sich aus diesen Wahrscheinlichkeiten:

Dabei gilt Folgendes:

Notation für Testdatensatz

BegriffBeschreibung
nTestStichprobenumfang des Testdatensatzes
yi, Testbinärer Antwortwert von Fall i im Testdatensatz. yi, k = 1 für Ereignisklasse, sonst 0.
<scriptoutputs conref="../scripts/images/mss_interface_callouts_mac.mtb.dita#mss_interface_callouts_mac/all_outputs"/>
<scriptoutputs conref="../scripts/images/mss_interface_callouts_mac.mtb.dita#mss_interface_callouts_mac/all_outputs"/>
prognostizierte Ereigniswahrscheinlichkeit für Fall i im Testdatensatz

Fläche unterhalb der ROC-Kurve

Die Tabelle mit der Zusammenfassung des Modells enthält den Bereich unter der ROC-Kurve, wenn die Antwort binär ist. Die ROC-Kurve zeigt die Richtig-Positiv-Rate (TPR), auch als Trennschärfe bezeichnet, auf der y-Achse und die Falsch-Positiv-Rate (FPR), auch als Fehler 1. Art bezeichnet, auf der x-Achse. Die Fläche unter der ROC-Kurve kann typischerweise Werte von 0,5 bis 1 annehmen.

Formel

Die Fläche unter der Kurve ist eine Summe der Flächen von Trapezen:

Hierbei ist k die Anzahl der eindeutigen Ereigniswahrscheinlichkeiten und (x0, y0) ist der Punkt (0, 0).

Um die Fläche für eine Kurve anhand von Daten von außerhalb des Segments oder eines Testdatensatzes zu berechnen, verwenden Sie die Punkte aus der entsprechenden Kurve.

Notation

BegriffBeschreibung
TprRichtig-Positiv-Rate
FprFalsch-Positiv-Rate
tpRichtig positiv; Ereignisse, die richtig bewertet wurden
fnfalsch negativ, Ereignisse, die falsch bewertet wurden
PAnzahl der tatsächlichen positiven Ereignisse
Fpfalsch positiv, Nicht-Ereignisse, die falsch bewertet wurden
NAnzahl der tatsächlichen negativen Ereignisse
FnrFalsch-Negativ-Rate
TNRRichtig-Negativ-Rate

Beispiel

Angenommen, Ihre Ergebnisse weisen vier verschiedene angepasste Werte mit den folgenden Koordinaten auf der ROC-Kurve auf:
x (Falsch-Positiv-Rate) y (Richtig-Positiv-Rate)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Dann wird die Fläche unterhalb der ROC-Kurve durch die folgende Berechnung angegeben:

95%-KI für die Fläche unterhalb der ROC-Kurve

Minitab berechnet ein Konfidenzintervall für die Fläche unter der Grenzwertoptimierungskurve (ROC-Kurve), wenn die Antwortvariable binär ist.

Das folgende Intervall gibt die Ober- und die Untergrenze für das Konfidenzintervall an:

Die Berechnung des Standardfehlers der Fläche unterhalb der ROC-Kurve () stammt aus dem Salford Predictive Modeler®. Allgemeine Informationen zum Schätzen der Varianz der Fläche unterhalb ROC-Kurve finden Sie in den folgenden Veröffentlichungen:

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2nd ed.) Heidelberg; New York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. and Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305–312.

Feng, D., Cortese, G., und Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603–2621. doi:10.1177/0962280215602040

Notation

BegriffBeschreibung
AFläche unterhalb der ROC-Kurve
<scriptoutputs conref="../scripts/images/mss_interface_callouts_mac.mtb.dita#mss_interface_callouts_mac/all_outputs"/>
<scriptoutputs conref="../scripts/images/mss_interface_callouts_mac.mtb.dita#mss_interface_callouts_mac/all_outputs"/>
0,975 Perzentil der Standardnormalverteilung

Lift

Minitab zeigt den Lift in der Tabelle mit der Zusammenfassung des Modells an, wenn die Antwortvariable binär ist. Der Lift in der Tabelle mit der Zusammenfassung des Modells ist der kumulative Lift für 10 % der Daten.

Allgemeine Berechnungen für den kumulativen Lift finden Sie unter Methoden und Formeln für das kumulative Lift-Diagramm für Random Forests®-Klassifikation.

Fehlklassifizierungsrate

Die folgende Gleichung ergibt die Fehlklassifizierungsrate:

Die fehlklassifizierte Anzahl ist die Anzahl der Zeilen in den Daten von außerhalb des Segments, in denen sich die prognostizierten Klassen von den wahren Klassen unterscheiden. Die Anzahl gibt die Anzahl der Zeilen in den Daten von außerhalb des Segments an.

Bei der Validierung mit einem Testdatensatz ist die fehlklassifizierte Anzahl die Summe der Fehlklassifizierungen im Testdatensatz. Die Gesamtanzahl ist die Anzahl der Zeilen IN859 im Testdatensatz.