Methoden und Formeln für die Grenzwertoptimierungskurve (ROC-Kurve) für Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet®-Klassifikation

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Das Verfahren für die Punkte auf der ROC-Kurve hängt von der Validierungsmethode ab. Für eine multinomiale Antwortvariable zeigt Minitab mehrere Diagramme an, in denen jede Klasse nacheinander als Ereignis behandelt wird.

Keine Validierung

Beim Diagramm für einen Trainingsdatensatz stellt jeder Punkt im Diagramm eine eindeutige angepasste Ereigniswahrscheinlichkeit dar. Die höchste Ereigniswahrscheinlichkeit ist der erste Punkt im Diagramm, der links außen angezeigt wird. Die anderen Ereigniswahrscheinlichkeiten sind absteigend geordnet.

Verwendern Sie das folgende Verfahren, um die x- und y-Koordinaten für das Diagramm zu finden.

  1. Verwenden Sie jede eindeutige Ereigniswahrscheinlichkeit als Schwellenwert. Für einen bestimmten Schwellenwert erhalten Fälle mit geschätzter Ereigniswahrscheinlichkeit, die größer oder gleich dem Schwellenwert sind, 1 als prognostizierte Klasse, andernfalls 0. Anschließend können Sie eine 2x2-Tabelle für alle Fälle mit beobachteten Klassen als Zeilen und prognostizierten Klassen als Spalten erstellen, um die Falsch-Positiv-Rate und die Richtig-Positiv-Rate für jede Ereigniswahrscheinlichkeit zu berechnen. Die Falsch-Positiv-Raten sind die x-Koordinaten für das Diagramm. Die Richtig-Positiv-Raten sind die y-Koordinaten.

    Angenommen, die folgende Tabelle fasst ein vereinfachendes Modell mit zwei zweistufigen kategorialen Prädiktoren zusammen. Diese Prädiktoren ergeben vier eindeutige Ereigniswahrscheinlichkeiten, die auf 2 Dezimalstellen gerundet werden:

    A: Reihenfolge B: Prädiktor 1 C: Prädiktor 2 D: Anzahl der Ereignisse E: Anzahl der Nicht-Ereignisse F: Anzahl der Versuche G: Schwellenwert (angepasste Ereigniswahrscheinlichkeit)
    1 1 1 18 12 30 0,60
    2 1 2 25 42 67 0,37
    3 2 1 12 44 56 0,21
    4 2 2 4 32 36 0,11
    Gesamt     59 130 189  

    Im Folgenden sind die entsprechenden vier Tabellen mit ihren jeweiligen Falsch-Positiv-Raten und Richtig-Positiv-Raten auf zwei Dezimalstellen gerundet aufgeführt:

    Tabelle 1. Schwellenwert = 0,60.

    Falsch-Positiv-Rate = 12/(12 + 118) = 0,09

    Richtig-Positiv-Rate = 18/(18 + 41) = 0,31

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 18 41
    Nicht-Ereignis 12 118
    Tabelle 2. Schwellenwert = 0,37.

    Falsch-Positiv-Rate = (12 + 42)/130 = 0,42

    Richtig-Positiv-Rate = (18 + 25)/59 = 0,73

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 43 16
    Nicht-Ereignis 54 76
    Tabelle 3. Schwellenwert = 0,21.

    Falsch-Positiv-Rate = (12 + 42 + 44)/130 = 0,75

    Richtig-Positiv-Rate = (18 + 25 + 12)/59 = 0,93

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 55 4
    Nicht-Ereignis 98 32
    Tabelle 4. Schwellenwert = 0,11.

    Falsch-Positiv-Rate = (12 + 42 + 44 + 32)/130 = 1

    Richtig-Positiv-Rate = (18 + 25 + 12 + 4)/59 = 1

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 59 0
    Nicht-Ereignis 130 0

Separater Testdatensatz

Führen Sie die gleichen Schritte wie beim Verfahren für den Trainingsdatensatz aus, berechnen Sie jedoch die Ereigniswahrscheinlichkeiten aus den Fällen für den Testdatensatz.

Test mit Kreuzvalidierung mit K Faltungen

Führen Sie die gleichen Schritte wie beim Verfahren mit dem Trainingsdatensatz aus, berechnen Sie jedoch die Ereigniswahrscheinlichkeiten aus den kreuzvalidierten Fällen.