Beim Diagramm für einen Trainingsdatensatz stellt jeder Punkt im Diagramm einen Endknoten aus dem Baum dar. Der Endknoten mit der höchsten Ereigniswahrscheinlichkeit ist der erste Punkt im Diagramm, der links außen angezeigt wird. Die anderen Endknoten werden nach abnehmender Ereigniswahrscheinlichkeit geordnet abgebildet.
Verwendern Sie das folgende Verfahren, um die x- und y-Koordinaten für die Punkte zu finden.
Angenommen, in der folgenden Tabelle wird ein Baum mit vier Endknoten zusammengefasst:
A: Endknoten | B: Anzahl der Ereignisse | C: Anzahl der Fälle | D: Schwellenwert (B/C) |
---|---|---|---|
4 | 18 | 30 | 0,60 |
1 | 25 | 67 | 0,37 |
3 | 12 | 56 | 0,21 |
2 | 4 | 36 | 0,11 |
Gesamt | 59 | 189 |
Im Folgenden sind die entsprechenden Richtig-Positiv-Raten auf 2 Dezimalstellen gerundet aufgeführt:
A: Endknoten | B: Anzahl der Ereignisse | C: Richtig-Positiv-Rate |
---|---|---|
4 | 18 | 18/59 = 0,31 |
1 | 25 | 25/59 = 0,42 |
3 | 12 | 12/59 = 0,20 |
2 | 4 | 4/59 = 0,07 |
Gesamt | 59 |
Wenn z. B. der Endknoten mit der höchsten prognostizierten Wahrscheinlichkeit 0,16 der Daten und der Endknoten mit der zweithöchsten Ereigniswahrscheinlichkeit 0,35 der Grundgesamtheit enthält, beträgt der kumulierte Prozentsatz der Daten für den ersten Endknoten 0,16 und der kumulierte Prozentsatz der Grundgesamtheit für den zweiten Endknoten 0,16 + 0,35 = 0,51.
Die folgende Tabelle zeigt ein Beispiel der Berechnungen für einen kleinen Baum. Die Werte sind auf zwei Dezimalstellen gerundet.
A: Endknoten | B: Anzahl der Ereignisse | C: Anzahl der Fälle | D: Ereigniswahrscheinlichkeit für Sortierung (B/C) | E: Richtig-Positiv-Rate | F: Prozentsatz der Daten (C/Summe von C) | G: Kumulierter Prozentsatz der Daten, x-Koordinate | H: Lift (E/F), y-Koordinate |
---|---|---|---|---|---|---|---|
4 | 18 | 30 | 0,60 | 0,31 | 0,16 | 0,16 | 1,94 |
1 | 25 | 67 | 0,37 | 0,42 | 0,35 | 0,51 | 1,20 |
3 | 12 | 56 | 0,21 | 0,20 | 0,30 | 0,81 | 0,67 |
2 | 4 | 36 | 0,11 | 0,07 | 0,19 | 1,00 | 0,37 |
Führen Sie die gleichen Schritte wie beim Trainingsdatensatz aus, berechnen Sie jedoch die Ereigniswahrscheinlichkeit aus den Fällen für den Testdatensatz.
Das Verfahren zum Definieren der x- und y-Koordinaten im Lift-Diagramm mit Kreuzvalidierung mit K Faltungen umfasst einen zusätzlichen Schritt. Durch diesen Schritt werden viele eindeutige Ereigniswahrscheinlichkeiten erzeugt. Angenommen, das Baumdiagramm enthält vier Endknoten. Es liegt eine Kreuzvalidierung mit 10 Faltungen vor. Verwenden Sie für die i-te Faltung den 9/10-Anteil der Daten, um die Ereigniswahrscheinlichkeiten für Fälle in Faltung i zu schätzen. Wird dieser Vorgang für jede Faltung wiederholt, beträgt die maximale Anzahl eindeutiger Ereigniswahrscheinlichkeiten 4 *10 = 40. Sortieren Sie anschließend alle eindeutigen Ereigniswahrscheinlichkeiten in abnehmender Reihenfolge, und kombinieren Sie alle eindeutigen Ereigniswahrscheinlichkeiten, für die weitere Fälle benötigt werden, um eine ordnungsgemäße Einteilung zu erhalten. Nach diesem Schritt bestimmen Sie mit den Schritten für den Trainingsdatensatz ab Schritt 3 bis zum Ende die x- und y-Koordinaten.