Métodos de división de nodos en Regresión CART®

Un árbol de regresión resulta de una partición recursiva binaria del conjunto de datos de entrenamiento. Cualquier nodo padre del conjunto de datos de entrenamiento puede dividirse en dos nodos hijos mutuamente excluyentes en un número finito de formas, lo cual depende de los valores de datos del nodo. Para una variable continua, X, y un valor c, una división envía todos los registros con valores de X ≤ c al nodo izquierdo y los registros restantes al nodo derecho.

CART siempre utiliza el promedio de dos valores adyacentes para calcular c. Una variable continua con N valores distintos genera hasta N–1 divisiones potenciales del nodo padre. En un análisis, el número real de divisiones potenciales es menor cuando el tamaño mínimo del nodo es mayor que 1.

Para una variable categórica X con valores distintos {c1, c2, c3, ..., ck}, una división es un subconjunto de niveles que se envían al nodo izquierdo. Una variable categórica con k niveles genera hasta 2k – 1-1 divisiones.

Para una posible división durante la fase de crecimiento del árbol, los criterios de mejora son Mínimos cuadrados (LS) o Desviación absoluta mínima (LAD). Minitab agrega la división con la mejora más alta al árbol. Si la mejora para dos predictores es la misma, el algoritmo requiere una selección para continuar. La selección utiliza un esquema de desempate determinista que implica la posición de los predictores en la hoja de trabajo, el tipo de predictor y el número de clases en un predictor categórico.

Minitab calcula las mejoras solo a partir de los datos de entrenamiento cuando el análisis incluye un método de validación del modelo. Utilice las siguientes fórmulas para calcular la mejora de cada criterio.

Mínimos cuadrados (LS)

donde

Desviación absoluta mínima (LAD)

donde

Notación

TérminoDescription
SSEsuma de errores al cuadrado
registro i-ésimo en el nodo
SAEsuma de los errores absolutos
mediana de la respuesta para el nodo

Divisiones sustitutas

Después de la identificación de una división óptima, Minitab busca divisiones sustitutas entre las otras divisiones potenciales. Una división sustituta se asemeja a la división óptima en la que los registros van a los nodos izquierdo y derecho. La medida de semejanza es la asociación.

Una asociación de 1 indica que la división sustituta replica la división óptima. Una asociación de 0 indica que la división envía todos los registros al nodo con más registros en la división óptima. Las divisiones con asociación positiva son sustitutos potenciales. Las mejoras de las divisiones sustitutas están en los cálculos de importancia variable.

Cuando los nuevos datos incluyen valores faltantes para cualquiera de los predictores que forman divisiones, Minitab utiliza el mejor predictor sustituto no faltante en lugar del predictor que aparece en el árbol.