Diagramm der Grenzwertoptimierungskurve (ROC-Kurve) für CART® Klassifikation

Das Verfahren für die Punkte auf der ROC-Kurve hängt von der Validierungsmethode ab. Für eine multinomiale Antwortvariable zeigt Minitab mehrere Diagramme an, in denen jede Klasse nacheinander als Ereignis behandelt wird.

Trainingsdatensatz oder keine Validierung

Beim Diagramm für einen Trainingsdatensatz stellt jeder Punkt im Diagramm einen Endknoten aus dem Baum dar. Der Endknoten mit der höchsten Ereigniswahrscheinlichkeit ist der erste Punkt im Diagramm, der links außen angezeigt wird. Die anderen Endknoten werden nach abnehmender Ereigniswahrscheinlichkeit geordnet abgebildet.

Verwendern Sie das folgende Verfahren, um die x- und y-Koordinaten für das Diagramm zu finden.

  1. Berechnen Sie die Ereigniswahrscheinlichkeit jedes Endknotens:
    Dabei gilt Folgendes:
    • n1,k ist die Anzahl der Ereignisse im k-ten Knoten
    • Nk ist die Anzahl der Fälle im k-ten Knoten
  2. Bilden Sie eine Rangfolge der Endknoten von der höchsten bis zur niedrigsten Ereigniswahrscheinlichkeit.
  3. Verwenden Sie jede Ereigniswahrscheinlichkeit als Schwellenwert. Für einen bestimmten Schwellenwert erhalten Fälle mit einer geschätzten Ereigniswahrscheinlichkeit größer oder gleich dem Schwellenwert 1 als prognostizierte Klasse, andernfalls 0. Anschließend können Sie eine 2x2-Tabelle für alle Fälle mit beobachteten Klassen als Zeilen und prognostizierten Klassen als Spalten erstellen, um die Falsch-Positiv-Rate und die Richtig-Positiv-Rate für jeden Endknoten zu berechnen. Die Falsch-Positiv-Raten sind die x-Koordinaten für das Diagramm. Die Richtig-Positiv-Raten sind die y-Koordinaten.

    Angenommen, in der folgenden Tabelle wird ein Baum mit vier Endknoten zusammengefasst:

    A: Endknoten B: Anzahl der Ereignisse C: Anzahl der Nicht-Ereignisse D: Anzahl der Fälle E: Schwellenwert (B/D)
    4 18 12 30 0,60
    1 25 42 67 0,37
    3 12 44 56 0,21
    2 4 32 36 0,11
    Gesamt 59 130 189  

    Im Folgenden sind die entsprechenden vier Tabellen mit ihren jeweiligen Falsch-Positiv-Raten und Richtig-Positiv-Raten auf zwei Dezimalstellen gerundet aufgeführt:

    Tabelle 1. Schwellenwert = 0,60.

    Falsch-Positiv-Rate = 12/(12 + 118) = 0,09

    Richtig-Positiv-Rate = 18/(18 + 41) = 0,31

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 18 41
    Nicht-Ereignis 12 118
    Tabelle 2. Schwellenwert = 0,37.

    Falsch-Positiv-Rate = (12 + 42)/130 = 0,42

    Richtig-Positiv-Rate = (18 + 25)/59 = 0,73

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 43 16
    Nicht-Ereignis 54 76
    Tabelle 3. Schwellenwert = 0,21.

    Falsch-Positiv-Rate = (12 + 42 + 44)/130 = 0,75

    Richtig-Positiv-Rate = (18 + 25 + 12)/59 = 0,93

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 55 4
    Nicht-Ereignis 98 32
    Tabelle 4. Schwellenwert = 0,11.

    Falsch-Positiv-Rate = (12 + 42 + 44 + 32)/130 = 1

    Richtig-Positiv-Rate = (18 + 25 + 12 + 4)/59 = 1

        Prognostiziert
        Ereignis Nicht-Ereignis
    Beobachtet Ereignis 59 0
    Nicht-Ereignis 130 0

Separater Testdatensatz

Führen Sie die gleichen Schritte wie beim Verfahren mit dem Trainingsdatensatz aus, berechnen Sie jedoch die Ereigniswahrscheinlichkeit aus den Fällen für den Testdatensatz.

Test mit Kreuzvalidierung mit K Faltungen

Das Verfahren zum Definieren der x- und y-Koordinaten in der ROC-Kurve mit Kreuzvalidierung mit K Faltungen umfasst einen zusätzlichen Schritt. Durch diesen Schritt werden viele eindeutige Ereigniswahrscheinlichkeiten erzeugt. Angenommen, das Baumdiagramm enthält vier Endknoten. Es liegt eine Kreuzvalidierung mit 10 Faltungen vor. Verwenden Sie für die i-te Faltung den 9/10-Anteil der Daten, um die Ereigniswahrscheinlichkeiten für Fälle in Faltung i zu schätzen. Wird dieser Vorgang für jede Faltung wiederholt, beträgt die maximale Anzahl eindeutiger Ereigniswahrscheinlichkeiten 4 *10 = 40. Sortieren Sie anschließend alle eindeutigen Ereigniswahrscheinlichkeiten in absteigender Reihenfolge. Verwenden Sie die Ereigniswahrscheinlichkeiten als Schwellenwerte, um prognostizierte Klassen für Fälle im gesamten Datensatz zuzuweisen. Nach diesem Schritt bestimmen Sie mit den Schritten für den Trainingsdatensatz ab Schritt 3 bis zum Ende die x- und y-Koordinaten.