Métodos para Regresión Random Forests®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.

Un modelo de Random Forests® es un enfoque para resolver problemas de clasificación y regresión. El enfoque es más preciso y más robusto para los cambios en las variables predictoras que un árbol de clasificación o regresión individual. Una descripción amplia y general del proceso es que Minitab Statistical Software crea un árbol individual a partir de una muestra de la secuencia de arranque. Minitab selecciona de manera aleatoria un número menor de predictores del número total de predictores para evaluar el mejor divisor en cada nodo. Minitab repite este proceso para ampliar muchos árboles. En el caso de regresión, la predicción del modelo es el promedio de las predicciones de todos los árboles individuales.

Para crear un árbol de regresión, el algoritmo utiliza el criterio de mínimos cuadrados para medir la impureza de los nodos. Para obtener más detalles acerca de la construcción de un árbol de regresión, vaya a Métodos de división de nodos en Regresión CART®. A continuación se presentan detalles específicos acerca de Random Forests®.

Muestras de la secuencia de arranque

Para crear cada árbol, el algoritmo selecciona una muestra aleatoria con reemplazo (muestra de la secuencia de arranque) del conjunto de datos completo. Normalmente, cada muestra de la secuencia de arranque es diferente y puede contener un número diferente de filas únicas del conjunto de datos original. Si solo utiliza la validación out-of-bag, el tamaño predeterminado de la muestra de la secuencia de arranque es el tamaño del conjunto de datos original. Si divide la muestra en un conjunto de entrenamiento y un conjunto de pruebas, el tamaño predeterminado de la muestra de la secuencia de arranque es igual al tamaño del conjunto de entrenamiento. En cualquier caso, tiene la opción de especificar que la muestra de la secuencia de arranque sea menor que el tamaño predeterminado. En promedio, una muestra de la secuencia de arranque contiene aproximadamente 2/3 de las filas de datos. Las filas únicas de datos que no están en la muestra de la secuencia de arranque son los datos out-of-bag para la validación.

Selección aleatoria de predictores

En cada nodo del árbol, el algoritmo selecciona de manera aleatoria un subconjunto del número total de predictores, , para evaluar como divisores. De forma predeterminada, el algoritmo elige predictores para evaluar en cada nodo. Usted tiene la opción de elegir un número diferente de predictores para evaluar, de 1 a . Si elige predictores, entonces el algoritmo evalúa cada predictor en cada nodo, lo que resulta en un análisis con el nombre "bosque de la secuencia arranque."

En un análisis que utiliza un subconjunto de predictores en cada nodo, los predictores evaluados suelen ser diferentes en cada nodo. La evaluación de diferentes predictores hace que los árboles del bosque estén menos correlacionados entre sí. Los árboles menos correlacionados crean un efecto de aprendizaje lento para que las predicciones mejoren a medida que se construyen más árboles.

Validación con datos out-of-bag

Las únicas filas de datos que no forman parte del proceso de creación del árbol para un árbol determinado son los datos out-of-bag. Los cálculos para las medidas de rendimiento del modelo utilizan los datos out of bag. Para obtener más información, vaya a Métodos y fórmulas para el resumen del modelo en Regresión Random Forests®.

Para un árbol determinado en el bosque, una predicción para una fila de los datos out-of-bag se hace a partir del árbol individual. La predicción de una fila en los datos out-of-bag es el promedio de las predicciones de los árboles individuales.

Predicción para una fila en el conjunto de entrenamiento

Cada árbol del bosque realiza una predicción individual para cada fila del conjunto de entrenamiento. El valor previsto para una fila en el conjunto de entrenamiento es el promedio de los valores pronosticados de todos los árboles del bosque.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política