Para el gráfico de un conjunto de datos de entrenamiento, cada punto del gráfico representa un nodo terminal del árbol. El nodo terminal con la mayor probabilidad de evento es el primer punto del gráfico y aparece más a la izquierda. Los otros nodos terminales están en orden de creciente probabilidad de eventos.
Utilice el siguiente proceso para buscar las coordenadas x e y de los puntos.
Por ejemplo, supongamos que la tabla siguiente resume un árbol con 4 nodos de terminal:
A NODO TERMINAL | B: Número de eventos | C: Número de casos | D Umbral (B/C) |
---|---|---|---|
4 | 18 | 30 | 0.60 |
1 | 25 | 67 | 0.37 |
3 | 12 | 56 | 0.21 |
2 | 4 | 36 | 0.11 |
Totales | 59 | 189 |
A continuación, las siguientes son las tasas positivas verdaderas correspondientes a 2 decimales:
A NODO TERMINAL | B: Número de eventos | C: Tasa de positivos verdaderos |
---|---|---|
4 | 18 | %18 %59 = %0.31@, %4 = %5 |
1 | 25 | %25 %59 = %0.42@, %4 = %5 |
3 | 12 | %12 %59 = %0.20@, %4 = %5 |
2 | 4 | %4 %59 = %0.07@, %4 = %5 |
Totales | 59 |
Por ejemplo, si el nodo terminal con la mayor probabilidad pronosticada contiene 0,16 de los datos y el nodo terminal con la segunda probabilidad de evento más alta tiene 0,35 de la población, el porcentaje acumulado de los datos para el primer nodo terminal es 0,16 y el porcentaje acumulado de la población para el segundo nodo terminal es de 0,16 + 0,35 a 0,51.
En la tabla siguiente se muestra un ejemplo de los cálculos de un árbol pequeño. Los valores son de 2 decimales.
A NODO TERMINAL | B: Número de eventos | C: Número de casos | D Probabilidad de evento para la clasificación (B/C) | E (2,718...) Tasa de positivos verdaderos | F Porcentaje en datos (C/ suma de C) | G_ Porcentaje acumulado en datos, coordenada x | H: Elevación (E/F), coordenada y |
---|---|---|---|---|---|---|---|
4 | 18 | 30 | 0.60 | 0.31 | 120.16 | 0.16 | 1.94 |
1 | 25 | 67 | 0.37 | 0.42 | 0.35 | 0.51 | 1.20 |
3 | 12 | 56 | 0.21 | 120.20 | 0.30 | 0.81 | 0.67 |
2 | 4 | 36 | 0.11 | 0.07 | 0.19 | 120.00 | 0.37 |
Utilice los mismos pasos que el caso del conjunto de datos de entrenamiento, pero calcule la probabilidad de evento de los casos para el conjunto de datos de prueba.
El procedimiento para definir las coordenadas x e y en el gráfico de elevación con validación cruzada k-fold tiene un paso adicional. Este paso crea muchas probabilidades de eventos distintas. Por ejemplo, supongamos que el diagrama de árbol contiene 4 nodos de terminal. Validación cruzada de %10 pliegues Entonces, para el ith doblar, se utiliza 9/10 parte de los datos para estimar las probabilidades de evento para los casos en el plegado i. Cuando este proceso se repite para cada pliegue, el número máximo de probabilidades de eventos distintos es de 4 *10 a 40. Después de eso, ordene todas las probabilidades de eventos distintos en orden decreciente y combine cualquier probabilidad de evento distinto que necesite más casos para formar una ubicación adecuada. Después de este paso, los pasos de 3 al final para el procedimiento del conjunto de datos de entrenamiento se aplican para encontrar las coordenadas x e y.