Para la gráfica de un conjunto de datos de entrenamiento, cada punto de la gráfica representa un nodo terminal del árbol. El nodo terminal con la mayor probabilidad de evento es el primer punto de la gráfica y aparece más a la izquierda. Los otros nodos terminales están en orden decreciente de probabilidad de evento.
Utilice el siguiente proceso para buscar las coordenadas x e y de los puntos.
Por ejemplo, supongamos que la tabla siguiente resume un árbol con 4 nodos terminales:
A: Nodo terminal | B: Número de eventos | C: Número de casos | D: Valor umbral (B/D) |
---|---|---|---|
4 | 18 | 30 | 0.60 |
1 | 25 | 67 | 0.37 |
3 | 12 | 56 | 0.21 |
2 | 4 | 36 | 0.11 |
Totales | 59 | 189 |
A continuación, las siguientes son las cuatro tablas correspondientes con sus respectivas tasas de verdaderos positivos a 2 decimales:
Pronosticado | |||
---|---|---|---|
evento | no evento | ||
Observado | evento | 18 | 41 |
no evento | 12 | 118 |
Pronosticado | |||
---|---|---|---|
evento | no evento | ||
Observado | evento | 43 | 16 |
no evento | 54 | 76 |
Pronosticado | |||
---|---|---|---|
evento | no evento | ||
Observado | evento | 55 | 4 |
no evento | 98 | 32 |
Pronosticado | |||
---|---|---|---|
evento | no evento | ||
Observado | evento | 59 | 0 |
no evento | 130 | 0 |
Por ejemplo, si el nodo terminal con la mayor probabilidad pronosticada contiene 0.16 de los datos y el nodo terminal con la segunda probabilidad pronosticada más alta tiene 0.35 de los datos, el porcentaje acumulado de los datos para el primer nodo de terminal es 0.16 y el porcentaje acumulado de los datos para el segundo nodo terminal es 0.16 + 0.35 = 0,51.
En la tabla siguiente se muestra un ejemplo de los cálculos de un árbol pequeño. Los valores son de 2 decimales.
A: Nodo terminal | B: Número de eventos | C: Número de casos | D: Probabilidad de evento para la clasificación (B/C) | E: Tasa de verdaderos positivos (coordenada y) | F: Porcentaje en datos (C/ suma de C) | G: Porcentaje acumulado en datos, coordenada x |
---|---|---|---|---|---|---|
4 | 18 | 30 | 0.60 | 0.31 | 0.16 | 0.16 |
1 | 25 | 67 | 0.37 | 0.73 | 0.35 | 0.51 |
3 | 12 | 56 | 0.21 | 0.93 | 0.30 | 0.81 |
2 | 4 | 36 | 0.11 | 1 | 0.19 | 1.00 |
Utilice los mismos pasos que el caso del conjunto de datos de entrenamiento, pero calcule las probabilidades de evento de los casos para el conjunto de datos de prueba.
El procedimiento para definir las coordenadas x e y en la gráfica de ganancia con validación cruzada de k pliegues tiene un paso adicional. Este paso crea muchas probabilidades de evento distintas. Por ejemplo, supongamos que el diagrama de árbol contiene 4 nodos terminales. Tenemos validación cruzada de 10 pliegues A continuación, para el i-ésimo pliegue, se utiliza la parte 9/10 de los datos para estimar las probabilidades del evento para los casos en el pliegue i. Cuando este proceso se repite para cada pliegue, el número máximo de probabilidades del evento distintas es de 4 *10 = 40. Después de eso, ordene todas las probabilidades de eventos distintos en orden decreciente. Utilice las probabilidades de eventos como cada uno de los valores umbrales para asignar clases pronosticadas para los casos de todo el conjunto de datos. Después de este paso, los pasos de 3 al final para el procedimiento del conjunto de datos de entrenamiento se aplican para encontrar las coordenadas x e y.