Datos de entrenamiento o sin validación
Para la gráfica de un conjunto de datos de entrenamiento, cada punto de la gráfica representa una probabilidad de evento ajustada distinta. La probabilidad de evento más alta es el primer punto de la gráfica y aparece más a la izquierda. Los otros nodos terminales están en orden decreciente de probabilidad de evento.
Utilice el siguiente proceso para buscar las coordenadas X e Y de la gráfica.
- Utilice cada probabilidad de evento como un valor umbral. Para un valor umbral específico, los casos con una probabilidad de evento estimada mayor que o igual al valor umbral obtienen 1 como la clase pronosticada, 0 en caso contrario. A continuación, puede formar una tabla 2x2 para todos los casos con clases observadas como filas y clases pronosticadas como columnas para calcular la tasa de falsos positivos y la tasa de verdaderos positivos para cada probabilidad de evento. Las tasas de falsos positivos son las coordenadas X de la gráfica. Las tasas de verdaderos positivos son las coordenadas Y.
Por ejemplo, supongamos que la tabla siguiente resume un modelo con dos predictores categóricos de 2 niveles. Estos predictores dan cuatro probabilidades de evento distintas, que se redondean a 2 decimales:
A Orden |
B: Predictor 1 |
C: Predictor 2 |
D Número de eventos |
E: Número de no eventos |
F Número de ensayos |
G: Valor umbral (D/F) |
1 |
1 |
1 |
18 |
12 |
30 |
0.60 |
2 |
1 |
2 |
25 |
42 |
67 |
0.37 |
3 |
2 |
1 |
12 |
44 |
56 |
0.21 |
4 |
2 |
2 |
4 |
32 |
36 |
0.11 |
Totales |
|
|
59 |
130 |
189 |
|
Las siguientes son las cuatro tablas correspondientes con sus respectivas tasas de falsos positivos y tasas de verdaderos positivos redondeadas a 2 decimales:
Table 1. Valor umbral = 0.60.
Tasa de falsos positivos = 12 / (12 + 118) - 0.09
Tasa de verdaderos positivos = 18 / (18 + 41) = 0.31
|
|
Pronosticado |
|
|
evento |
no evento |
Observado |
evento |
18 |
41 |
no evento |
12 |
118 |
Table 2. Valor umbral = 0.37.
Tasa de falsos positivos = (12 + 42) / 130 = 0.42
Tasa de verdaderos positivos = (18 + 25) / 59 = 0.73
|
|
Pronosticado |
|
|
evento |
no evento |
Observado |
evento |
43 |
16 |
no evento |
54 |
76 |
Table 3. Valor umbral = 0.21.
Tasa de falsos positivos = (12 + 42 + 44) / 130 = 0.75
Tasa de verdaderos positivos = (18 + 25 + 12) / 59 = 0.93
|
|
Pronosticado |
|
|
evento |
no evento |
Observado |
evento |
55 |
4 |
no evento |
98 |
32 |
Table 4. Valor umbral = 0.11.
Tasa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1
Tasa de verdaderos positivos = (18 + 25 + 12 + 4) / 59 = 1
|
|
Pronosticado |
|
|
evento |
no evento |
Observado |
evento |
59 |
0 |
no evento |
130 |
0 |
Conjunto de datos de prueba independiente
Utilice los mismos pasos que el procedimiento del conjunto de datos de entrenamiento, pero calcule la probabilidad de evento de los casos para el conjunto de datos de prueba.
Prueba con validación cruzada de k pliegues
Utilice los mismos pasos que el procedimiento del conjunto de datos de entrenamiento, pero calcule las probabilidades de evento de los casos para el conjunto de datos con validación cruzada.