Selección del árbol óptimo en Cart® Clasificación

Dependiendo de su selección, el árbol óptimo es el árbol que produce el coste mínimo de clasificación incorrecta o el árbol más pequeño con un coste de clasificación incorrecta dentro de un múltiplo de errores estándar del coste de clasificación incorrecta mínimo. La determinación del árbol óptimo depende del método de validación.

Para obtener más información sobre los métodos de validación de modelos y los parámetros de complejidad, véase Breiman, Friedman, Olshen y Stone (1984)1.

Método de validación:

Modelo de estadísticas resumidos, como la desviación R2, tienden a ser optimistas al calcularlos con los mismos datos que utiliza para ajustarse a un modelo. Los métodos de validación del modelo dejan una parte de los datos fuera del proceso de ajuste del modelo y, a continuación, calculan las estadísticas que evalúan el rendimiento del modelo en los datos omitidos. Las técnicas de validación de modelos proporcionan una mejor estimación del rendimiento de los modelos en los nuevos datos. El coste de clasificación incorrecta de los datos omitidos es el criterio para la selección del árbol óptimo. Minitab ofrece dos métodos de validación para técnicas de análisis predictivo: validación cruzada k-fold y validación con un conjunto de datos de prueba independiente.

El árbol óptimo con validación cruzada k-fold

La validación cruzada K-fold es el método predeterminado en Minitab cuando los datos tienen 5000 casos o menos. Con este método, Minitab divide los datos en subconjuntos K. Los subconjuntos se denominan pliegues. La validación cruzada K-fold tiende a funcionar bien con conjuntos de datos que son relativamente pequeños en comparación con los conjuntos de datos que funcionan bien con un conjunto de datos de prueba. Dado que el proceso repite las veces K, la validación cruzada suele ser más lenta que la validación con un conjunto de datos de prueba.

Procedimiento de validación cruzada K-fold

Para completar la validación cruzada k-fold, Minitab produce secuencias de 1 + k de subárboles. Una secuencia de subárboles, la secuencia maestra, utiliza todo el conjunto de datos de entrenamiento. Las otras secuencias k son para los pliegues k. Para cada pliegue, la secuencia de subárboles utiliza (k – 1)/k de los casos del conjunto de datos de entrenamiento.

Cada secuencia consta de una secuencia finita de subárboles anidados. Cada pliegue tiene una secuencia finita de parámetros de complejidad αdααd + 1 corresponden al árbol más grande y a los subárboles de la secuencia. La secuencia que es para el conjunto de datos completo tiene parámetros de complejidad βd ββd + 1Dónde d = 0, 1, ... D, donde β0 es el parámetro para el árbol más grande de la secuencia.

Para cualquier subárbol de la secuencia maestra, supongamos que los parámetros de complejidad correspondientes son βd y βd + 1 . Dejar . Luego, Minitab utiliza este alfa para encontrar los subárboles k correspondientes de los pliegues k. Para cada pliegue, calcule el costo de clasificación errónea para el subárbol utilizando la fórmula en Métodos y fórmulas para el resumen del modelo en Cart® Clasificación. El coste medio de clasificación errónea en k plegados es el coste de clasificación incorrecta estimado para el subárbol en la secuencia maestra. Repita el cálculo del coste de clasificación incorrecta estimado para cada subárbol de la secuencia maestra. El procedimiento identifica el subárbol con el coste medio mínimo de clasificación errónea. El árbol con el coste de clasificación errónea mínimo o el árbol más pequeño con un coste de clasificación incorrecta dentro de un múltiplo de errores estándar del coste de clasificación incorrecta se convierte en el árbol óptimo en los resultados.

El árbol óptimo con un conjunto de datos de prueba independiente

En la validación con un conjunto de datos de prueba, una parte de los datos se reserva para la validación. Esta parte de los datos es el conjunto de datos de entrenamiento. En primer lugar, Minitab se adapta a todos los árboles para con el conjunto de datos de entrenamiento. Luego, Minitab calcula el error cuadrado medio o la desviación absoluta para el conjunto de datos de prueba para cada árbol. El árbol con el valor óptimo del criterio para el conjunto de datos de prueba es el árbol óptimo.

El árbol óptimo sin validación

Sin ninguna validación, Minitab utiliza todo el conjunto de datos para hacer crecer la secuencia de subárboles. El subárbol con más nodos terminales tiene el coste mínimo de clasificación errónea y es el árbol óptimo.

1 Breiman, Friedman, Olshen & Stone. (1984). Arboles de clasificación y regresión. Boca Raton, Florida: Chapman & Hall/CRC.
Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política