Métodos y fórmulas para gráficas de dependencia parcial en Ajustar modelo y Descubrir predictores clave con Clasificación TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Gráficas de dependencia parcial de un predictor

Supongamos que hay m predictores en un conjunto de datos de entrenamiento, denotados como x1, x2, ..., xm. En primer lugar, ordene los valores distintos del predictor x1 en el conjunto de datos de entrenamiento en orden creciente. Denote x11 como el primer valor distinto de x1. A continuación, x11 es la coordenada x para el punto más a la izquierda de la gráfica.

La coordenada y en x1 = x11 es igual a
TérminoDescription
Nel número total de filas en el conjunto de datos de entrenamiento
los valores observados para en el conjunto de datos de entrenamiento
jcada fila individual de las filas J
el valor ajustado del modelo cuando x1 = x11, x2 = x2j,...., xm = xmj

Al reemplazar de x11 por cada uno de los valores distintos de x1,obtenemos las coordenadas y para el resto de los puntos en la gráfica. Los cálculos para el resto de los predictores se realizan de forma similar.

Los cálculos de todas las coordenadas y para todos los valores distintos de x pueden requerir mucho tiempo con grandes conjuntos de datos. Para TreeNet®, hay una manera más rápida de realizar los cálculos. Referencia a Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), page 1221.

Los cálculos para el caso de respuesta multinomial son similares. Aquí el valor ajustado es del modelo para cada clase individual.

Gráficas de dependencia parcial de dos predictores

Supongamos que hay m predictores en un conjunto de datos de entrenamiento, denotados como x1, x2, ..., xm. En primer lugar, ordene los valores distintos de los predictores x1, x2 en el conjunto de datos de entrenamiento en orden creciente. Denote x11, x21 como uno de los pares distintos. A continuación, cada par forma las coordenadas X y Y para un punto en la gráfica de superficie.

La coordenada z en x1 = x11, x2 = x21 es igual a
TérminoDescription
Nel número total de filas en el conjunto de datos de entrenamiento que comparten la similitud de x1 = x11, x2 = x21
los valores observados para en el conjunto de datos de entrenamiento
jcada fila individual de las filas J
el valor ajustado del modelo cuando x1 = x11, x2 = x21, x3 = x3j...., xm = xmj

La realización de los cálculos para todas las combinaciones de valores distintos de x1 y x2 produce todas las coordenadas z para la gráfica de contorno o superficie. Para conjuntos de datos grandes, los cálculos para todos los pares distintos de X y Y requieren mucho tiempo. Para los modelos TreeNet®, hay una forma más rápida de realizar los cálculos. Referencia a Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), page 1221.