Curva Característica Operativa del Receptor (ROC) Cart® Clasificación

El procedimiento para los puntos de la curva ROC depende del método de validación. Para una variable de respuesta multinomial, Minitab muestra múltiples gráficos que tratan a cada clase como el evento a su vez.

Conjunto de datos de entrenamiento o sin validación

Para el gráfico de un conjunto de datos de entrenamiento, cada punto del gráfico representa un nodo terminal del árbol. El nodo terminal con la mayor probabilidad de evento es el primer punto del gráfico y aparece más a la izquierda. Los otros nodos terminales están en orden de creciente probabilidad de eventos.

Utilice el siguiente proceso para buscar las coordenadas x e y del gráfico.

  1. Calcule la probabilidad de evento de cada nodo terminal:
    Dónde
    • n1,k es el número de eventos en el kth NODO
    • Nk es el número de casos en el kth NODO
  2. Clasificar los nodos terminales de mayor a menor probabilidad de evento.
  3. Utilice cada probabilidad de evento como umbral. Para un umbral específico, los casos con una probabilidad de evento estimada mayor o igual que el umbral obtienen 1 como la clase pronosticada, 0 en caso contrario. A continuación, puede formar una tabla 2x2 para todos los casos con clases observadas como filas y clases predichas como columnas para calcular la tasa de falsos positivos y la tasa positiva verdadera para cada nodo terminal. Las tasas de falsos positivos son las coordenadas x para el gráfico Las tasas positivas verdaderas son las coordenadas y.

    Por ejemplo, supongamos que la tabla siguiente resume un árbol con 4 nodos de terminal:

    A NODO TERMINAL B: Número de eventos C: Número de nonevents D Número de casos E (2,718...) Umbral (B/D)
    4 18 12 30 0.60
    1 25 42 67 0.37
    3 12 44 56 0.21
    2 4 32 36 120.11
    Totales 59 130 189

    A continuación, las siguientes son las 4 tablas correspondientes con sus respectivas tasas de falsos positivos y tasas positivas verdaderas a 2 decimales:

    Table 1. valor umbral.

    Tasa de positivos falsos

    Tasa de positivos verdaderos

    Pronosticado
    evento sin evento
    Observado evento 18 41
    sin evento 12 118
    Table 2. valor umbral.

    Tasa de positivos falsos

    Tasa de positivos verdaderos

    Pronosticado
    evento sin evento
    Observado evento 43 16
    sin evento 54 76
    Table 3. valor umbral.

    Tasa de positivos falsos

    Tasa de positivos verdaderos

    Pronosticado
    evento sin evento
    Observado evento 55 4
    sin evento 98 32
    Table 4. valor umbral.

    Tasa de positivos falsos

    Tasa de positivos verdaderos

    Pronosticado
    evento sin evento
    Observado evento 59 0
    sin evento 130 0

Conjunto de datos de prueba independiente

Utilice los mismos pasos que el procedimiento del conjunto de datos de entrenamiento, pero calcule la probabilidad de evento de los casos para el conjunto de datos de prueba.

Prueba con validación cruzada k-fold

El procedimiento para definir las coordenadas x e y en el gráfico de curvas ROC con validación cruzada k-fold tiene un paso adicional. Este paso crea muchas probabilidades de eventos distintas. Por ejemplo, supongamos que el diagrama de árbol contiene 4 nodos de terminal. Validación cruzada de %10 pliegues Entonces, para el ith doblar, se utiliza 9/10 parte de los datos para estimar las probabilidades de evento para los casos en el plegado i. Cuando este proceso se repite para cada pliegue, el número máximo de probabilidades de eventos distintos es de 4 *10 a 40. Después de eso, ordene todas las probabilidades de eventos distintos en orden decreciente. Utilice las probabilidades de eventos como cada uno de los valores de umbral para asignar clases predichas para los casos de todo el conjunto de datos. Después de este paso, los pasos de 3 al final para el procedimiento del conjunto de datos de entrenamiento se aplican para encontrar las coordenadas x e y.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política