Curva de rendimiento diagnóstico (ROC) para Ajustar modelo logístico binario

La curva ROC representa la tasa de verdaderos positivos (TPR), también conocida como potencia, en el eje Y. La curva ROC representa la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. El área bajo una curva ROC indica si el modelo binario es un buen clasificador.

Interpretación

El área bajo los valores de la curva ROC oscila entre 0.5 y 1. Cuando el modelo binario puede separar perfectamente las clases, entonces el área debajo de la curva es 1. Cuando el modelo binario no puede separar las clases mejor que una asignación aleatoria, el área debajo de la curva es 0.5.

Cuando no se utiliza un conjunto de prueba separado, Minitab crea la curva ROC con el conjunto de datos.

En este ejemplo, el área bajo la curva de prueba es 0.9405.

Con un método de validación, Minitab crea dos curvas ROC. Una curva es para los datos de entrenamiento y la otra para los datos de validación. Los resultados de validación indican si el modelo puede predecir adecuadamente los valores de respuesta para nuevas observaciones o resumir correctamente las relaciones entre la respuesta y las variables predictoras. Los resultados de entrenamiento suelen ser más ideales que reales y son solo para referencia.

Un área de k pliegues debajo de la curva ROC que es sustancialmente menor que el área bajo la curva ROC puede indicar que el modelo tiene un ajuste excesivo. Un modelo con ajuste excesivo se produce cuando el modelo incluye términos que no son importantes en la población. El modelo se adapta a los datos de entrenamiento y, por lo tanto, puede no ser útil para hacer predicciones sobre la población.

En este ejemplo, la curva de entrenamiento muestra un mejor ajuste que la curva de prueba. El rendimiento de la curva de prueba suele ser una mejor representación del rendimiento del modelo para nuevos datos. El área bajo la curva de prueba es 0.8882.