Este comando está disponible con el Módulo de análisis predictivo. Haga doble clic aquí para obtener información sobre cómo activar el módulo.
Un modelo de Random Forests® es un enfoque para resolver problemas de clasificación y regresión. El enfoque es más preciso y más robusto para los cambios en las variables predictoras que un árbol de clasificación o regresión individual. Una descripción amplia y general del proceso es que Minitab Statistical Software crea un árbol individual a partir de una muestra de la secuencia de arranque. Minitab selecciona de manera aleatoria un número menor de predictores del número total de predictores para evaluar el mejor divisor en cada nodo. Minitab repite este proceso para ampliar muchos árboles. En el caso de la clasificación, la clasificación de cada árbol es un voto para la clasificación pronosticada. Para una fila determinada de los datos, la clase con más votos es la clase pronosticada para esa fila en el conjunto de datos.
Para crear un árbol de clasificación, el algoritmo utiliza el criterio Gini para medir la impureza de los nodos. Para obtener más detalles acerca de la construcción de un árbol de clasificación, vaya a Método de división de nodos: Clasificación CART®. A continuación se presentan detalles específicos acerca de Random Forests®.
Para crear cada árbol, el algoritmo selecciona una muestra aleatoria con reemplazo (muestra de la secuencia de arranque) del conjunto de datos completo. Normalmente, cada muestra de la secuencia de arranque es diferente y puede contener un número diferente de filas únicas del conjunto de datos original. Si solo utiliza la validación out-of-bag, el tamaño predeterminado de la muestra de la secuencia de arranque es el tamaño del conjunto de datos original. Si divide la muestra en un conjunto de entrenamiento y un conjunto de pruebas, el tamaño predeterminado de la muestra de la secuencia de arranque es igual al tamaño del conjunto de entrenamiento. En cualquier caso, tiene la opción de especificar que la muestra de la secuencia de arranque sea menor que el tamaño predeterminado. En promedio, una muestra de la secuencia de arranque contiene aproximadamente 2/3 de las filas de datos. Las filas únicas de datos que no están en la muestra de la secuencia de arranque son los datos out-of-bag para la validación.
En cada nodo del árbol, el algoritmo selecciona de manera aleatoria un subconjunto del número total de predictores, , para evaluar como divisores. De forma predeterminada, el algoritmo elige
predictores para evaluar en cada nodo. Usted tiene la opción de elegir un número diferente de predictores para evaluar, de 1 a
. Si elige
predictores, entonces el algoritmo evalúa cada predictor en cada nodo, lo que resulta en un análisis con el nombre "bosque de la secuencia arranque."
En un análisis que utiliza un subconjunto de predictores en cada nodo, los predictores evaluados suelen ser diferentes en cada nodo. La evaluación de diferentes predictores hace que los árboles del bosque estén menos correlacionados entre sí. Los árboles menos correlacionados crean un efecto de aprendizaje lento para que las predicciones mejoren a medida que se construyen más árboles.
Las únicas filas de datos que no forman parte del proceso de creación del árbol para un árbol determinado son los datos out-of-bag. Los cálculos para las medidas de rendimiento del modelo, como la log-verosimilitud promedio, hacen uso de los datos out of bag. Para obtener más información, vaya a Métodos y fórmulas para el resumen del modelo en Clasificación Random Forests®.
Para un árbol determinado en el bosque, un voto de clase para una fila de los datos out-of-bag es la clase pronosticada para la fila del árbol individual. La clase pronosticada para una fila de los datos out-of-bag es la clase con el voto más alto en todos los árboles del bosque.
La probabilidad de clase pronosticada para una fila de los datos out-of-bag es la relación entre el número de votos de la clase y el total de votos para la fila. La validación del modelo utiliza las clases pronosticadas, las probabilidades de clase pronosticadas y los valores de respuesta reales para todas las filas que aparecen al menos una vez en los datos out of bag.
donde Vk es el número de árboles que votan para que esa fila i esté en la clase k y F sea el número de árboles en el bosque.