Selección del árbol óptimo en Regresión CART^®

Puede especificar que el árbol óptimo sea el árbol con el mínimo cuadrado del error o el árbol con la desviación absoluta mínima. La determinación del árbol con el mejor valor del criterio elegido depende del método de validación.

En este tema

Métodos de validación del modelo
El árbol óptimo con validación cruzada con k-fold
El árbol óptimo con un conjunto de datos de prueba independiente
El árbol óptimo sin validación

Para obtener más detalles sobre los métodos de validación de modelos y los parámetros de complejidad, véase Breiman, Friedman, Olshen y Stone (1984) ¹.

Métodos de validación del modelo

Las estadísticas de resumen del modelo, como R², tienden a ser optimistas al calcularlas con los mismos datos que se usan para ajustar un modelo. Los métodos de validación del modelo dejan una porción de los datos fuera del proceso de ajuste del modelo y después calculan las estadísticas que evalúan el rendimiento del modelo según los datos omitidos. Las técnicas de validación de modelos proporcionan una mejor estimación del rendimiento de los modelos en datos nuevos. Minitab ofrece dos métodos de validación para técnicas de analítica predictiva: validación cruzada con k-fold y validación con un conjunto de datos de prueba independiente.

El árbol óptimo con validación cruzada con k-fold

La validación cruzada de k pliegues es el método predeterminado en Minitab cuando los datos tienen 5,000 casos o menos. Con este método, Minitab divide los datos en K subconjuntos. Los subconjuntos se denominan pliegues. La validación cruzada de k pliegues tiende a funcionar bien con conjuntos de datos que son relativamente pequeños en comparación con los conjuntos de datos que funcionan bien con un conjunto de datos de prueba. Dado que el proceso se repite K veces, la validación cruzada suele ser más lenta que la validación con un conjunto de datos de prueba.

Procedimiento de validación cruzada de k pliegues

Para completar la validación cruzada de k pliegues, Minitab produce 1 + k secuencias de subárboles. Una secuencia de subárboles, la secuencia maestra, utiliza todo el conjunto de datos de entrenamiento. Las otras k secuencias son para los k pliegues. Para cada pliegue, la secuencia de subárboles utiliza (k – 1)/k de los casos del conjunto de datos de entrenamiento.

Cada secuencia consta de una secuencia finita de subárboles anidados. Cada pliegue tiene una secuencia finita de parámetros de complejidad α_d ≤ α ≤ α_{d + 1} que corresponden al árbol más grande y a los subárboles de la secuencia. La secuencia que se encuentra para el conjunto de datos completo tiene parámetros de complejidad β_d ≤ β ≤ β_{d + 1}donde d = 0, 1, ... D, donde β₀ es el parámetro para el árbol más grande de la secuencia.

Para cualquier subárbol de la secuencia maestra, supongamos que los parámetros de complejidad correspondientes son β_d y β_{d + 1}. Sea . Luego, Minitab utiliza este alfa para encontrar los k subárboles correspondientes de los k pliegues. Para cada pliegue, calcule el criterio elegido para el subárbol utilizando la fórmula en Métodos y fórmulas para el resumen del modelo en Regresión CART®. El promedio del criterio en k pliegues es el valor estimado para el subárbol en la secuencia maestra. Repita el cálculo del criterio para cada subárbol de la secuencia maestra. El subárbol con el valor promedio mínimo es el árbol óptimo.

El árbol óptimo con un conjunto de datos de prueba independiente

En la validación con un conjunto de datos de prueba, una parte de los datos se reserva para la validación. Esta parte de los datos es el conjunto de datos de entrenamiento. En primer lugar, Minitab adapta todos los árboles con el conjunto de datos de entrenamiento. Luego, Minitab calcula el cuadrado medio del error o la desviación absoluta para el conjunto de datos de prueba para cada árbol. El árbol con el valor óptimo del criterio para el conjunto de datos de prueba es el árbol óptimo.

El árbol óptimo sin validación

Sin ninguna validación, Minitab utiliza todo el conjunto de datos para hacer crecer la secuencia de subárboles. El subárbol con más nodos terminales tiene el mínimo cuadrado medio del error o la menor desviación absoluta y es el árbol óptimo.

¹ Breiman, Friedman, Olshen & Stone. (1984). Classification and Regression Trees. Boca Raton, Florida: Chapman & Hall/CRC.