Predictores importantes

El número de predictores con importancia relativa positiva.

Cualquier árbol de clasificación es una colección de divisiones. Cada división proporciona una mejora al árbol. Cada división también incluye divisiones sustitutas que también proporcionan mejoras al árbol. La importancia de una variable viene dada por todas sus mejoras cuando el árbol utiliza la variable para dividir un nodo o como suplente para dividir un nodo cuando otra variable tiene un valor que falta.

La siguiente fórmula proporciona la mejora en un solo nodo:

Los valores de I(t), pIzquierdaY pDerecha depende del criterio para dividir los nodos. Para obtener más información, vaya a Método de división de nodos: Cart® Clasificación.

La fórmula para la importancia relativa para el qth predictor escala la importancia por la variable más importante:

R-cuad. de la Desviación

Minitab calcula el valor R-cuadrado de desviación cuando la respuesta es binaria. La siguiente ecuación da la fórmula para la desviación R2:

El cálculo de los valores de desviación depende de la técnica de validación.

Datos de formación o sin validación

Notación para datos de entrenamiento o sin validación

TérminoDescription
probabilidad del evento en los datos
Ntamaño de la muestra de los datos completos o de los datos de formación
W = %1iponderación para zona 4 ith observación en el conjunto completo de datos o el conjunto de datos de entrenamiento
Y =ivariable indicadora que es 1 para el evento y 0 de lo contrario en el conjunto de datos completo o el conjunto de datos de entrenamiento
Log-verosimilitud = %1

Validación cruzada de K pliegues

Para la validación cruzada, los cálculos omiten un pliegue a la vez.

Notación para la validación cruzada k-fold

TérminoDescription
Knúmero de pliegues
probabilidad del evento en los datos que no incluyen las observaciones en j
njtamaño de la muestra del pliegue j
W = %1ijponderación para zona 4 ith observación en el pliegue j
Y =ijvariable indicadora que es 1 para el evento y 0 de lo contrario para los datos en plegado j
probabilidad prevista del evento a partir de la estimación del modelo que no incluye las observaciones ith observación en el pliegue j

Conjunto de datos de prueba

Los cálculos para el conjunto de datos de prueba son similares a los cálculos de los datos de entrenamiento, pero utilizan los datos de prueba.

Notación para el conjunto de datos de prueba

TérminoDescription
probabilidad del evento en el conjunto de datos de entrenamiento
nPruebatamaño de la muestra del conjunto de datos de prueba
W = %1iProbar...ponderación para zona 4 ith observación en el conjunto de datos de prueba
Y:iProbar...variable indicadora que es 1 para el evento y 0 de lo contrario para los datos del conjunto de datos de prueba
Log-verosimilitud = %1

Promedio –log-probabilidad

Minitab calcula el promedio de la función de probabilidad de registro negativa cuando la respuesta es binaria. Los cálculos dependen del método de validación.

Datos de formación o sin validación

Dónde

Notación para datos de entrenamiento o sin validación

TérminoDescription
Ntamaño de la muestra de los datos completos o los datos de entrenamiento
W = %1iponderación para zona 4 ith observación en el conjunto de datos completo o de formación
Y =ivariable indicadora que es 1 para el evento y 0 de lo contrario para el conjunto de datos completo o de formación
probabilidad pronosticada del evento para el ith fila en el conjunto de datos completo o de entrenamiento

Validación cruzada de K pliegues

Dónde

Notación para la validación cruzada k-fold

TérminoDescription
Ntamaño de la muestra de los datos completos o de formación
njtamaño de la muestra del pliegue j
W = %1ijponderación para zona 4 ith observación en el pliegue j
Y =ijvariable indicadora que es 1 para el evento y 0 de lo contrario para los datos en plegado j
probabilidad prevista del evento a partir de la estimación del modelo que no incluye las observaciones ith observación en el pliegue j

Conjunto de datos de prueba

Dónde

Notación para el conjunto de datos de prueba

TérminoDescription
nPruebatamaño de la muestra del conjunto de datos de prueba
W = %1iProbar...ponderación para zona 4 ith observación en el conjunto de datos de prueba
Y:iProbar...variable indicadora que es 1 para el evento y 0 de lo contrario para los datos del conjunto de datos de prueba
probabilidad pronosticada del evento para el ith fila en el conjunto de datos de entrenamiento

Área bajo la curva ROC

La curva ROC traza la tasa positiva verdadera (TPR), también conocida como potencia, en el eje Y, y la tasa de falsos positivos (FPR), también conocida como error de tipo 1, en el eje X. El área bajo los valores de la curva ROC oscila entre 0.5 y 1.

Fórmula

Para el área debajo de la curva, Minitab utiliza una integración.

En la mayoría de los casos, esta integral es equivalente a la siguiente suma de áreas de trapecios:

Dónde k Gráfica de MAD vs. número de nodos terminalesx0, Y =0) es el punto (0, 0).

Por ejemplo, supongamos que los resultados tienen 4 nodos terminales con las siguientes coordenadas en la curva ROC:
Tasa de positivos falsos Tasa de positivos verdaderos
0.0923 0.3051
120.4154 0.7288
0.7538 0.9322
1 1
A continuación, el área bajo la curva ROC se da por el siguiente cálculo:

Notación

TérminoDescription
TRP Tasa de positivos verdaderos
FPR Tasa de positivos falsos
TPverdadero positivo, eventos que fueron evaluados correctamente
P número de eventos positivos reales
FPverdaderos negativos, no eventos que fueron evaluados correctamente
N número de eventos negativos reales
FNRFalso negativo
TNRVerdadero negativo

IC del 95% para el área bajo la curva ROC

Minitab calcula un intervalo de confianza para el área bajo la curva de característica de funcionamiento del receptor cuando la respuesta es binaria.

El siguiente intervalo proporciona los límites superior e inferior para el intervalo de confianza:

El cálculo del error estándar del área bajo la curva ROC () proviene de Salford Predictive Modeler®. Para obtener información general sobre la estimación de la varianza del área bajo la curva ROC, véase las siguientes referencias:

Engelmann, B. (2011). Medidas de un poder discriminatorio de calificaciones: Aplicaciones y limitaciones. In B. Engelmann & R. Rauhmeier (Eds.), Los parámetros de riesgo de Basilea II: Estimación, validación, pruebas de estrés - Con solicitudes para la gestión del riesgo de préstamos (2a ed.) Heidelberg; New York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. and Mohri, M. (2005). Intervalos de confianza para el área bajo la curva ROC. Avances en los sistemas de procesamiento de información neuronal, 305-312.

Feng, D., Cortese, G., & Baumgartner, R. (2017). Una comparación de los métodos de confianza/intervalo creíble para el área bajo la curva ROC para pruebas de diagnóstico continuo con un tamaño de muestra pequeño. Métodos estadísticos en investigación médica, 26(6), 2603-2621. doi:10.1177/0962280215602040

Notación

TérminoDescription
Aárea bajo la curva ROC
Φ = CDF de la distribución normal estándar

Elevación

Minitab muestra elevación en la tabla de resumen del modelo cuando la respuesta es binaria. El ascensor en la tabla de resumen del modelo es el ascensor acumulativo para el 10% de los datos con la mejor probabilidad de clasificación correcta.

Fórmula

Para el 10% de las observaciones en los datos con las mayores probabilidades de ser asignados a la clase de evento, utilice la siguiente fórmula.

Para la elevación de pruebas con un conjunto de datos de prueba, utilice observaciones del conjunto de datos de prueba. Para la elevación de prueba con validación cruzada k-fold, seleccione los datos que desea utilizar y calcule la elevación a partir de las probabilidades pronosticadas para los datos que no están en la estimación del modelo.

Notación

TérminoDescription
dnúmero de casos en el 10% de los datos
probabilidad pronosticada del evento
probabilidad del evento en los datos de entrenamiento o, si el análisis no utiliza ninguna validación, en el conjunto de datos completo

Costo de clasificación errónea

El costo de clasificación incorrecta en la tabla de resumen del modelo es el costo de clasificación incorrecta relativo para el modelo en relación con un clasificador trivial que clasifica todas las observaciones en la clase más frecuente.

Para encontrar el coste de clasificación incorrecta, comience con la siguiente definición:

El coste de clasificación errónea relativo tiene la siguiente forma:

Dónde R0 es el costo del clasificador trivial.

La fórmula para R simplifica cuando las probabilidades anteriores son iguales o provienen de los datos.

Probabilidades anteriores

Cuando las probabilidades anteriores son iguales, se aplica la siguiente definición:
Con esta definición, R tiene la siguiente forma:

Probabilidades previas de los datos

Cuando las probabilidades anteriores provienen de los datos, se aplica la siguiente definición:

Con esta definición, R tiene la siguiente forma:

Notación

TérminoDescription
πjProbabilidad anterior jth clase de la variable de respuesta
costo de clasificar mal la clase i como clase j
número de clase i registros mal clasificados como clase j
Njnúmero de casos en el jth clase de la variable de respuesta
Knúmero de clases en la variable de respuesta
Nnúmero de casos en los datos
Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política