Métodos para Regresión Random Forests®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un modelo de Random Forests® es un enfoque para resolver problemas de clasificación y regresión. El enfoque es más preciso y más robusto para los cambios en las variables predictoras que un árbol de clasificación o regresión individual. Una descripción amplia y general del proceso es que Minitab Statistical Software crea un árbol individual a partir de una muestra de la secuencia de arranque. Minitab selecciona de manera aleatoria un número menor de predictores del número total de predictores para evaluar el mejor divisor en cada nodo. Minitab repite este proceso para ampliar muchos árboles. En el caso de regresión, la predicción del modelo es el promedio de las predicciones de todos los árboles individuales.

Para construir un árbol de regresión, el algoritmo utiliza el criterio de mínimos cuadrados para medir la impureza de los nodos. Para la aplicación de escritorio, cada árbol crece hasta que un nodo es imposible de dividir o un nodo alcanza el número mínimo de casos para dividir un nodo interno. El número mínimo de casos es una opción para el análisis. Para la aplicación web, el análisis agrega la restricción de que cada árbol tiene un límite de 4.000 nodos terminales. Para obtener más información sobre la construcción de un árbol de regresión, vaya a Métodos de división de nodos en Regresión CART®. A continuación se detallan los detalles específicos de Random Forests® .

Muestras de Bootstrap

Para construir cada árbol, el algoritmo selecciona una muestra aleatoria con reemplazo (muestra de arranque) del conjunto de datos completo. Normalmente, cada ejemplo de arranque es diferente y puede contener un número diferente de filas únicas del conjunto de datos original. Si solo utiliza la validación fuera de bolsa, el tamaño predeterminado de la muestra de arranque es el tamaño del conjunto de datos original. Si divide la muestra en un conjunto de entrenamiento y un conjunto de prueba, el tamaño predeterminado de la muestra de arranque es el mismo que el tamaño del conjunto de entrenamiento. En cualquier caso, tiene la opción de especificar que la muestra de arranque sea menor que el tamaño predeterminado. En promedio, una muestra de arranque contiene aproximadamente 2/3 de las filas de datos. Las filas únicas de datos que no están en la muestra de arranque son los datos fuera de bolsa para la validación.

Selección aleatoria de predictores

En cada nodo del árbol, el algoritmo selecciona aleatoriamente un subconjunto del número total de predictores, , para evaluar como divisores. De forma predeterminada, el algoritmo elige predictores a evaluar en cada nodo. Tiene la opción de elegir un número diferente de predictores para evaluar, de 1 a . Si eliges predictores, el algoritmo evalúa cada predictor en cada nodo, lo que da como resultado un análisis con el nombre "bosque de arranque".

En un análisis que utiliza un subconjunto de predictores en cada nodo, los predictores evaluados suelen ser diferentes en cada nodo. La evaluación de diferentes predictores hace que los árboles del bosque estén menos correlacionados entre sí. Los árboles menos correlacionados crean un efecto de aprendizaje lento para que las predicciones mejoren a medida que se crean más árboles.

Validación con datos "out-of-bag”

Las filas únicas de datos que no forman parte del proceso de creación de árboles para un árbol determinado son los datos out-of-bag. Los cálculos para las medidas de rendimiento del modelo utilizan los datos out of bag. Para obtener más información, vaya a Métodos y fórmulas para el resumen del modelo en Regresión Random Forests®.

Para un árbol determinado en el bosque, una predicción para una fila de los datos out-of-bag se hace a partir del árbol individual. La predicción de una fila en los datos out-of-bag es el promedio de las predicciones de los árboles individuales.

Predicción de una fila en el conjunto de entrenamiento

Cada árbol del bosque realiza una predicción individual para cada fila del conjunto de entrenamiento. El valor previsto para una fila del conjunto de entrenamiento es el promedio de los valores previstos de todos los árboles del bosque.