Métodos y fórmulas para el resumen del modelo en Ajustar modelo y Descubrir predictores clave con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Elija el método o la fórmula de su elección.

Predictores importantes

El número de predictores con importancia relativa positiva.
Un modelo Clasificación TreeNet® procede de una secuencia de pequeños árboles de regresión que utilizan residuos generalizados como variable de respuesta. El cálculo de la puntuación de mejora del modelo para un predictor de un árbol individual tiene dos pasos:
  1. Busque la reducción de errores cuadráticos medios cuando el predictor divide un nodo.
  2. Agregue todas las reducciones a partir de todos los nodos donde el predictor es el divisor de nodos.

A continuación, la puntuación de importancia para el predictor es igual a la suma de las puntuaciones de mejora del modelo en todos los árboles.

Log-verosimilitud promedio para una respuesta binaria

Los cálculos dependen del método de validación.

Datos de entrenamiento o sin validación

donde

y

Notación para datos de entrenamiento o sin validación

TérminoDescription
Ntamaño de la muestra del conjunto de datos completo o de entrenamiento
wiponderación para la iésima observación en el conjunto de datos completo o de entrenamiento
yiiésimo valor de respuesta que es 1 para el evento y 0 para el conjunto de datos completo o de entrenamiento
probabilidad pronosticada del evento para la iésima fila en el conjunto de datos completo o de entrenamiento
valor ajustado del modelo

Validación cruzada con k-fold

donde

y

Notación para la validación cruzada con k-fold

TérminoDescription
Ntamaño de la muestra de los datos completos o de entrenamiento
nktamaño de la muestra del grupo k
wi, kponderación para la iésima observación en el grupo k
yi, kvalor de respuesta binaria del caso i en el grupo k. yi, k = 1 para la clase de evento, y 0 en caso contrario.
probabilidad pronosticada para el caso i en el grupo k. La probabilidad pronosticada proviene del modelo que no utiliza los datos del grupo k.
valor ajustado para el caso i en el grupo k. El valor ajustado proviene del modelo que no utiliza los datos del grupo k.

Conjunto de datos de prueba

donde

y

Notación para el conjunto de datos de prueba

TérminoDescription
nPruebatamaño de la muestra del conjunto de datos de prueba
wi, Pruebaponderación para la iésima observación en el conjunto de datos de prueba
yi, Pruebavalor de respuesta binaria del caso i en el grupo k del conjunto de datos de prueba. yi, k = 1 para la clase de evento, y 0 en caso contrario.
probabilidad pronosticada para el caso i en el conjunto de datos prueba
valor ajustado para el caso i en el conjunto de datos de prueba

Log-verosimilitud promedio para una respuesta multinomial

Los cálculos dependen del método de validación. En las siguientes seccione, es el número de niveles en la variable de respuesta.

Datos de entrenamiento o sin validación

donde

Notación para datos de entrenamiento o sin validación

TérminoDescription
tamaño de la muestra del conjunto de datos completo o de entrenamiento
wiponderación para la iésima observación en el conjunto de datos completo o de entrenamiento
yi, qiésimo valor de respuesta que es 1 cuando y 0 en caso contrario
probabilidad pronosticada del qésimo nivel de la respuesta para la iésima fila en el conjunto de datos completo o de entrenamiento
valor ajustado de la qésima secuencia de árboles para la iésima fila, el cual se utiliza para calcular la probabilidad pronosticada del qésimo nivel de la respuesta

Validación cruzada con k-fold

donde

Notación para la validación cruzada con k-fold

TérminoDescription
Ntamaño de la muestra de los datos de entrenamiento
nktamaño de la muestra del grupo k
wi, kponderación para la iésima observación en el grupo k
yi, k, qiésimo valor de respuesta del caso i en el grupo k que es 1 cuando y 0 en caso contrario.
La probabilidad pronosticada del nivel qésimo de la respuesta para la iésima fila en el grupo k. La probabilidad pronosticada proviene del modelo que no utiliza los datos del grupo k.
El valor ajustado de la qésima secuencia de árboles para la iésima fila en el grupo k, que se utiliza para calcular la probabilidad pronosticada del nivel qésimo de la respuesta. El valor ajustado proviene del modelo que no utiliza los datos del grupo k.

Conjunto de datos de prueba

donde

Notación para el conjunto de datos de prueba

TérminoDescription
nPruebatamaño de la muestra de los datos de prueba
wi, Pruebaponderación para la iésima observación en los datos de prueba
yi, Prueba, qiésimo valor de respuesta del caso i en el conjunto de datos de prueba que es 1 cuando y 0 en caso contrario.
La probabilidad pronosticada del nivel qésimo de la respuesta para la iésima fila en los datos de prueba. La probabilidad pronosticada proviene del modelo que no utiliza los datos de prueba.
El valor ajustado para la qésima secuencia de árboles para la iésima fila de los datos de prueba, el cual se utiliza para calcular la probabilidad pronosticada del qésimo nivel de la respuesta. La probabilidad pronosticada proviene del modelo que no utiliza los datos de prueba.

Área bajo la curva ROC

La tabla Resumen del modelo incluye el área bajo la curva ROC cuando la respuesta es binaria. La curva ROC muestra la tasa de verdaderos positivos (TPR), también conocida como potencia, en el eje Y, y la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. Los valores del área bajo la curva ROC normalmente varían de 0.5 a 1.

Fórmula

El área bajo la curva es una suma de áreas de trapezoides:

donde k es el número de probabilidades del evento distintas y (x0, y0) es el punto (0, 0).

Para calcular el área de una curva a partir de un conjunto de datos de prueba o datos con validación cruzada, utilice los puntos de la curva correspondiente.

Notación

TérminoDescription
TPRtasa de verdaderos positivos
FPRtasa de falsos positivos
TPverdadero positivo, eventos que fueron evaluados correctamente
FNfalso negativo, eventos que se evaluaron incorrectamente
Pnúmero de eventos positivos reales
FPfalso positivo, no eventos que se evaluaron incorrectamente
Nnúmero de eventos negativos reales
FNRtasa de falsos negativos
TNRtasa de verdaderos negativos

Ejemplo

Por ejemplo, supongamos que los resultados tienen 4 valores ajustados distintos con las siguientes coordenadas en la curva ROC:
x (tasa de falsos positivos) y (tasa de verdaderos positivos)
0.0923 0.3051
0.4154 0.7288
0.7538 0.9322
1 1
Luego, el área bajo la curva ROC se da por el siguiente cálculo:

IC del 95% para el área bajo la curva ROC

Minitab calcula un intervalo de confianza para el área bajo la curva de características operativas del receptor (ROC) cuando la respuesta es binaria.

El siguiente intervalo proporciona los límites superior e inferior para el intervalo de confianza:

El cálculo del error estándar del área bajo la curva ROC () proviene de Salford Predictive Modeler®. Para obtener información general sobre la estimación de la varianza del área bajo la curva ROC, véase las siguientes referencias:

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2nd ed.) Heidelberg; New York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. y Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G. y Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

Notación

TérminoDescription
Aárea bajo la curva ROC
0.975 percentil de la distribución normal estándar

Elevación

Minitab muestra elevación en la tabla de resumen del modelo cuando la respuesta es binaria. La elevación en la tabla de resumen del modelo es la elevación acumulada para el 10% de los datos.

Tasa de clasificación errónea

En el caso ponderado, utilice conteos ponderados en lugar de conteos.

Para la validación cruzada con k-fold, el conteo de clasificaciones erróneas es la suma de las clasificaciones erróneas que se presentan cuando cada grupo es el conjunto de datos de prueba.

Para la validación con un conjunto de datos de prueba, el conteo de clasificaciones erróneas es la suma de clasificaciones erróneas en el conjunto de datos de prueba y el conteo total corresponde al conjunto de datos de prueba.