Para obtener más detalles sobre los métodos de validación de modelos y los parámetros de complejidad, véase Breiman, Friedman, Olshen y Stone (1984) 1.
Las estadísticas de resumen del modelo, como R2, tienden a ser optimistas al calcularlas con los mismos datos que se usan para ajustar un modelo. Los métodos de validación del modelo dejan una porción de los datos fuera del proceso de ajuste del modelo y después calculan las estadísticas que evalúan el rendimiento del modelo según los datos omitidos. Las técnicas de validación de modelos proporcionan una mejor estimación del rendimiento de los modelos en datos nuevos. Minitab ofrece dos métodos de validación para técnicas de analítica predictiva: validación cruzada con k-fold y validación con un conjunto de datos de prueba independiente.
La validación cruzada de k pliegues es el método predeterminado en Minitab cuando los datos tienen 5,000 casos o menos. Con este método, Minitab divide los datos en K subconjuntos. Los subconjuntos se denominan pliegues. La validación cruzada de k pliegues tiende a funcionar bien con conjuntos de datos que son relativamente pequeños en comparación con los conjuntos de datos que funcionan bien con un conjunto de datos de prueba. Dado que el proceso se repite K veces, la validación cruzada suele ser más lenta que la validación con un conjunto de datos de prueba.
Para completar la validación cruzada de k pliegues, Minitab produce 1 + k secuencias de subárboles. Una secuencia de subárboles, la secuencia maestra, utiliza todo el conjunto de datos de entrenamiento. Las otras k secuencias son para los k pliegues. Para cada pliegue, la secuencia de subárboles utiliza (k – 1)/k de los casos del conjunto de datos de entrenamiento.
Cada secuencia consta de una secuencia finita de subárboles anidados. Cada pliegue tiene una secuencia finita de parámetros de complejidad αd ≤ α ≤ αd + 1 que corresponden al árbol más grande y a los subárboles de la secuencia. La secuencia que se encuentra para el conjunto de datos completo tiene parámetros de complejidad βd ≤ β ≤ βd + 1donde d = 0, 1, ... D, donde β0 es el parámetro para el árbol más grande de la secuencia.
Para cualquier subárbol de la secuencia maestra, supongamos que los parámetros de complejidad correspondientes son βd y βd + 1. Sea . Luego, Minitab utiliza este alfa para encontrar los k subárboles correspondientes de los k pliegues. Para cada pliegue, calcule el criterio elegido para el subárbol utilizando la fórmula en Métodos y fórmulas para el resumen del modelo en Regresión CART®. El promedio del criterio en k pliegues es el valor estimado para el subárbol en la secuencia maestra. Repita el cálculo del criterio para cada subárbol de la secuencia maestra. El subárbol con el valor promedio mínimo es el árbol óptimo.
En la validación con un conjunto de datos de prueba, una parte de los datos se reserva para la validación. Esta parte de los datos es el conjunto de datos de entrenamiento. En primer lugar, Minitab adapta todos los árboles con el conjunto de datos de entrenamiento. Luego, Minitab calcula el cuadrado medio del error o la desviación absoluta para el conjunto de datos de prueba para cada árbol. El árbol con el valor óptimo del criterio para el conjunto de datos de prueba es el árbol óptimo.
Sin ninguna validación, Minitab utiliza todo el conjunto de datos para hacer crecer la secuencia de subárboles. El subárbol con más nodos terminales tiene el mínimo cuadrado medio del error o la menor desviación absoluta y es el árbol óptimo.