Métodos y fórmulas para la gráfica de la curva característica operativa del receptor (ROC) para Clasificación Random Forests®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

El procedimiento para los puntos de la curva ROC depende del método de validación. Para una variable de respuesta multinomial, Minitab muestra múltiples gráficas que tratan a cada clase como el evento en turno.

Validación out-of-bag

Para un árbol determinado en el bosque, un voto de clase para una fila de los datos out-of-bag es la clase pronosticada para la fila del árbol individual. La clase pronosticada para una fila de los datos out-of-bag es la clase con el voto más alto en todos los árboles del bosque. La probabilidad de clase pronosticada para una fila de los datos out-of-bag es la relación entre el número de votos de la clase y el total de votos para la fila.

Para la curva de los datos out-of-bag, cada punto de la gráfica representa una probabilidad de clase pronosticada distinta. La probabilidad del evento más alta es el primer punto de la gráfica y aparece más a la izquierda. Las otras probabilidades están en orden decreciente.

Utilice el siguiente proceso para buscar las coordenadas X y Y para la gráfica.

  1. Utilice cada probabilidad del evento distinta como un valor umbral. Para un valor umbral específico, los casos con una probabilidad estimada del evento mayor que o igual al valor umbral obtienen 1 como la clase pronosticada, 0 en caso contrario. A continuación, puede formar una tabla 2x2 para todos los casos con clases observadas como filas y clases pronosticadas como columnas para calcular la tasa de falsos positivos y la tasa de verdaderos positivos para cada probabilidad del evento. Las tasas de falsos positivos son las coordenadas X de la gráfica. Las tasas de verdaderos positivos son las coordenadas Y.

    Por ejemplo, supongamos que la tabla siguiente resume un modelo con dos predictores categóricos de 2 niveles. Estos predictores dan cuatro probabilidades del evento distintas, que se redondean a 2 decimales:

    A: Pedido B: Predictor 1 C: Predictor 2 D: Número de eventos E: Número de no eventos F: Número de ensayos G: Valor umbral (probabilidad ajustada del evento)
    1 1 1 18 12 30 0.60
    2 1 2 25 42 67 0.37
    3 2 1 12 44 56 0.21
    4 2 2 4 32 36 0.11
    Totales     59 130 189  

    Las siguientes son las cuatro tablas correspondientes con sus respectivas tasas de falsos positivos y tasas de verdaderos positivos redondeadas a 2 decimales:

    Table 1. Valor umbral = 0.60.

    Tasa de falsos positivos = 12 / (12 + 118) - 0.09

    Tasa de verdaderos positivos = 18 / (18 + 41) = 0.31

        Pronosticado
        evento no evento
    Observado evento 18 41
    no evento 12 118
    Table 2. Valor umbral = 0.37.

    Tasa de falsos positivos = (12 + 42) / 130 = 0.42

    Tasa de verdaderos positivos = (18 + 25) / 59 = 0.73

        Pronosticado
        evento no evento
    Observado evento 43 16
    no evento 54 76
    Table 3. Valor umbral = 0.21.

    Tasa de falsos positivos = (12 + 42 + 44) / 130 = 0.75

    Tasa de verdaderos positivos = (18 + 25 + 12) / 59 = 0.93

        Pronosticado
        evento no evento
    Observado evento 55 4
    no evento 98 32
    Table 4. Valor umbral = 0.11.

    Tasa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1

    Tasa de verdaderos positivos = (18 + 25 + 12 + 4) / 59 = 1

        Pronosticado
        evento no evento
    Observado evento 59 0
    no evento 130 0

Separar el conjunto de datos

Utilice los mismos pasos que en el procedimiento out-of-bag, pero calcule la probabilidad del evento utilizando los casos del conjunto de prueba.