CART siempre utiliza el promedio de dos valores adyacentes para calcular c. Una variable continua con N valores distintos genera hasta N–1 divisiones potenciales del nodo padre. En un análisis, el número real de divisiones potenciales es menor cuando el tamaño mínimo del nodo es mayor que 1.
Para una variable categórica X con valores distintos {c1, c2, c3, ..., ck}, una división es un subconjunto de niveles que se envían al nodo izquierdo. Una variable categórica con k niveles genera hasta 2k – 1-1 divisiones.
Para una posible división durante la fase de crecimiento del árbol, los criterios de mejora son Mínimos cuadrados (LS) o Desviación absoluta mínima (LAD). Minitab agrega la división con la mejora más alta al árbol. Si la mejora para dos predictores es la misma, el algoritmo requiere una selección para continuar. La selección utiliza un esquema de desempate determinista que implica la posición de los predictores en la hoja de trabajo, el tipo de predictor y el número de clases en un predictor categórico.
Minitab calcula las mejoras solo a partir de los datos de entrenamiento cuando el análisis incluye un método de validación del modelo. Utilice las siguientes fórmulas para calcular la mejora de cada criterio.
donde
donde
Término | Description |
---|---|
SSE | suma de errores al cuadrado |
registro i-ésimo en el nodo | |
SAE | suma de los errores absolutos |
mediana de la respuesta para el nodo |
Después de la identificación de una división óptima, Minitab busca divisiones sustitutas entre las otras divisiones potenciales. Una división sustituta se asemeja a la división óptima en la que los registros van a los nodos izquierdo y derecho. La medida de semejanza es la asociación.
Una asociación de 1 indica que la división sustituta replica la división óptima. Una asociación de 0 indica que la división envía todos los registros al nodo con más registros en la división óptima. Las divisiones con asociación positiva son sustitutos potenciales. Las mejoras de las divisiones sustitutas están en los cálculos de importancia variable.
Cuando los nuevos datos incluyen valores faltantes para cualquiera de los predictores que forman divisiones, Minitab utiliza el mejor predictor sustituto no faltante en lugar del predictor que aparece en el árbol.