Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.
A continuación, la puntuación de importancia para el predictor es igual a la suma de las puntuaciones de mejora del modelo en todos los árboles.
donde
Término | Description |
---|---|
N | tamaño de la muestra del conjunto de datos completo o de entrenamiento |
wi | ponderación para la iésima observación en el conjunto de datos completo o de entrenamiento |
yi | iésimo valor de respuesta que es 1 para el evento y 0 para el conjunto de datos completo o de entrenamiento |
probabilidad pronosticada del evento para la iésima fila en el conjunto de datos completo o de entrenamiento | |
valor ajustado del modelo |
donde
Término | Description |
---|---|
N | tamaño de la muestra de los datos completos o de entrenamiento |
nk | tamaño de la muestra del grupo k |
wi, k | ponderación para la iésima observación en el grupo k |
yi, k | valor de respuesta binaria del caso i en el grupo k. yi, k = 1 para la clase de evento, y 0 en caso contrario. |
probabilidad pronosticada para el caso i en el grupo k. La probabilidad pronosticada proviene del modelo que no utiliza los datos del grupo k. | |
valor ajustado para el caso i en el grupo k. El valor ajustado proviene del modelo que no utiliza los datos del grupo k. |
donde
Término | Description |
---|---|
nPrueba | tamaño de la muestra del conjunto de datos de prueba |
wi, Prueba | ponderación para la iésima observación en el conjunto de datos de prueba |
yi, Prueba | valor de respuesta binaria del caso i en el grupo k del conjunto de datos de prueba. yi, k = 1 para la clase de evento, y 0 en caso contrario. |
probabilidad pronosticada para el caso i en el conjunto de datos prueba | |
valor ajustado para el caso i en el conjunto de datos de prueba |
donde
Término | Description |
---|---|
tamaño de la muestra del conjunto de datos completo o de entrenamiento | |
wi | ponderación para la iésima observación en el conjunto de datos completo o de entrenamiento |
yi, q | iésimo valor de respuesta que es 1 cuando y 0 en caso contrario |
probabilidad pronosticada del qésimo nivel de la respuesta para la iésima fila en el conjunto de datos completo o de entrenamiento | |
valor ajustado de la qésima secuencia de árboles para la iésima fila, el cual se utiliza para calcular la probabilidad pronosticada del qésimo nivel de la respuesta |
donde
Término | Description |
---|---|
N | tamaño de la muestra de los datos de entrenamiento |
nk | tamaño de la muestra del grupo k |
wi, k | ponderación para la iésima observación en el grupo k |
yi, k, q | iésimo valor de respuesta del caso i en el grupo k que es 1 cuando y 0 en caso contrario. |
La probabilidad pronosticada del nivel qésimo de la respuesta para la iésima fila en el grupo k. La probabilidad pronosticada proviene del modelo que no utiliza los datos del grupo k. | |
El valor ajustado de la qésima secuencia de árboles para la iésima fila en el grupo k, que se utiliza para calcular la probabilidad pronosticada del nivel qésimo de la respuesta. El valor ajustado proviene del modelo que no utiliza los datos del grupo k. |
donde
Término | Description |
---|---|
nPrueba | tamaño de la muestra de los datos de prueba |
wi, Prueba | ponderación para la iésima observación en los datos de prueba |
yi, Prueba, q | iésimo valor de respuesta del caso i en el conjunto de datos de prueba que es 1 cuando y 0 en caso contrario. |
La probabilidad pronosticada del nivel qésimo de la respuesta para la iésima fila en los datos de prueba. La probabilidad pronosticada proviene del modelo que no utiliza los datos de prueba. | |
El valor ajustado para la qésima secuencia de árboles para la iésima fila de los datos de prueba, el cual se utiliza para calcular la probabilidad pronosticada del qésimo nivel de la respuesta. La probabilidad pronosticada proviene del modelo que no utiliza los datos de prueba. |
donde k es el número de probabilidades del evento distintas y (x0, y0) es el punto (0, 0).
Para calcular el área de una curva a partir de un conjunto de datos de prueba o datos con validación cruzada, utilice los puntos de la curva correspondiente.
Término | Description |
---|---|
TPR | tasa de verdaderos positivos |
FPR | tasa de falsos positivos |
TP | verdadero positivo, eventos que fueron evaluados correctamente |
FN | falso negativo, eventos que se evaluaron incorrectamente |
P | número de eventos positivos reales |
FP | falso positivo, no eventos que se evaluaron incorrectamente |
N | número de eventos negativos reales |
FNR | tasa de falsos negativos |
TNR | tasa de verdaderos negativos |
x (tasa de falsos positivos) | y (tasa de verdaderos positivos) |
---|---|
0.0923 | 0.3051 |
0.4154 | 0.7288 |
0.7538 | 0.9322 |
1 | 1 |
El siguiente intervalo proporciona los límites superior e inferior para el intervalo de confianza:
El cálculo del error estándar del área bajo la curva ROC () proviene de Salford Predictive Modeler®. Para obtener información general sobre la estimación de la varianza del área bajo la curva ROC, véase las siguientes referencias:
Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2nd ed.) Heidelberg; New York: Springer. doi:10.1007/978-3-642-16114-8
Cortes, C. y Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.
Feng, D., Cortese, G. y Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040
Término | Description |
---|---|
A | área bajo la curva ROC |
0.975 percentil de la distribución normal estándar |
Para ver los cálculos generales de la elevación acumulada, vaya a Métodos y fórmulas para la gráfica de elevación para Ajustar modelo y Descubrir predictores clave con Clasificación TreeNet®.
En el caso ponderado, utilice conteos ponderados en lugar de conteos.
Para la validación cruzada con k-fold, el conteo de clasificaciones erróneas es la suma de las clasificaciones erróneas que se presentan cuando cada grupo es el conjunto de datos de prueba.
Para la validación con un conjunto de datos de prueba, el conteo de clasificaciones erróneas es la suma de clasificaciones erróneas en el conjunto de datos de prueba y el conteo total corresponde al conjunto de datos de prueba.