Curva de características de funcionamiento del receptor (ROC) para Ajustar modelo logístico binarioy Regresión logística binaria

La curva ROC representa la tasa de verdaderos positivos (TPR), también conocida como potencia, en el eje Y. La curva ROC representa la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. El área bajo una curva ROC indica si el modelo binario es un buen clasificador.

Interpretación

El área bajo los valores de la curva ROC oscila entre 0.5 y 1. Cuando el modelo binario puede separar perfectamente las clases, entonces el área debajo de la curva es 1. Cuando el modelo binario no puede separar las clases mejor que una asignación aleatoria, el área debajo de la curva es 0.5.

Cuando no se utiliza un conjunto de prueba separado, Minitab crea la curva ROC con el conjunto de datos.

En este ejemplo, el área bajo la curva de prueba es 0.9405.

Con un método de validación, Minitab crea dos curvas ROC. Una curva es para los datos de entrenamiento y la otra es para los datos de validación. Los resultados de validación indican si el modelo puede predecir adecuadamente los valores de respuesta para nuevas observaciones o resumir correctamente las relaciones entre la respuesta y las variables predictoras. Los resultados de entrenamiento suelen ser más ideales que reales y son solo para referencia.

Un área de k-fold bajo la curva ROC que es sustancialmente menor que el área bajo la curva ROC puede indicar que el modelo está sobreajustado. Un modelo sobreajustado ocurre cuando el modelo incluye términos que no son importantes en la población. El modelo se adapta al conjunto de datos de entrenamiento y, por lo tanto, puede no ser útil para hacer predicciones sobre la población.

En este ejemplo, la curva de entrenamiento muestra un mejor ajuste que la curva de prueba. El rendimiento de la curva de prueba suele ser una mejor representación del rendimiento del modelo para los datos nuevos. El área bajo la curva de prueba es 0.8882.