Gráfica de curva de rendimiento diagnóstico (ROC) para Ajustar modelo logístico binario

El procedimiento para los puntos de la curva ROC depende del método de validación.

Datos de entrenamiento o sin validación

Para la gráfica de un conjunto de datos de entrenamiento, cada punto de la gráfica representa una probabilidad de evento ajustada distinta. La probabilidad de evento más alta es el primer punto de la gráfica y aparece más a la izquierda. Los otros nodos terminales están en orden decreciente de probabilidad de evento.

Utilice el siguiente proceso para buscar las coordenadas X e Y de la gráfica.

  1. Utilice cada probabilidad de evento como un valor umbral. Para un valor umbral específico, los casos con una probabilidad de evento estimada mayor que o igual al valor umbral obtienen 1 como la clase pronosticada, 0 en caso contrario. A continuación, puede formar una tabla 2x2 para todos los casos con clases observadas como filas y clases pronosticadas como columnas para calcular la tasa de falsos positivos y la tasa de verdaderos positivos para cada probabilidad de evento. Las tasas de falsos positivos son las coordenadas X de la gráfica. Las tasas de verdaderos positivos son las coordenadas Y.

    Por ejemplo, supongamos que la tabla siguiente resume un modelo con dos predictores categóricos de 2 niveles. Estos predictores dan cuatro probabilidades de evento distintas, que se redondean a 2 decimales:

    A: Pedido B: Predictor 1 C: Predictor 2 D: Número de eventos E: Número de no eventos F: Número de ensayos G: Valor umbral (D/F)
    1 1 1 18 12 30 0.60
    2 1 2 25 42 67 0.37
    3 2 1 12 44 56 0.21
    4 2 2 4 32 36 0.11
    Totales     59 130 189  

    Las siguientes son las cuatro tablas correspondientes con sus respectivas tasas de falsos positivos y tasas de verdaderos positivos redondeadas a 2 decimales:

    Table 1. Valor umbral = 0.60.

    Tasa de falsos positivos = 12 / (12 + 118) - 0.09

    Tasa de verdaderos positivos = 18 / (18 + 41) = 0.31

        Pronosticado
        evento no evento
    Observado evento 18 41
    no evento 12 118
    Table 2. Valor umbral = 0.37.

    Tasa de falsos positivos = (12 + 42) / 130 = 0.42

    Tasa de verdaderos positivos = (18 + 25) / 59 = 0.73

        Pronosticado
        evento no evento
    Observado evento 43 16
    no evento 54 76
    Table 3. Valor umbral = 0.21.

    Tasa de falsos positivos = (12 + 42 + 44) / 130 = 0.75

    Tasa de verdaderos positivos = (18 + 25 + 12) / 59 = 0.93

        Pronosticado
        evento no evento
    Observado evento 55 4
    no evento 98 32
    Table 4. Valor umbral = 0.11.

    Tasa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1

    Tasa de verdaderos positivos = (18 + 25 + 12 + 4) / 59 = 1

        Pronosticado
        evento no evento
    Observado evento 59 0
    no evento 130 0

Conjunto de datos de prueba independiente

Utilice los mismos pasos que el procedimiento del conjunto de datos de entrenamiento, pero calcule la probabilidad de evento de los casos para el conjunto de datos de prueba.

Prueba con validación cruzada de k pliegues

Utilice los mismos pasos que el procedimiento del conjunto de datos de entrenamiento, pero calcule las probabilidades de evento de los casos para el conjunto de datos con validación cruzada.