Ejemplo de Regresión Random Forests®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores recopila los datos de la venta de propiedades residenciales individuales en Ames, Iowa. Los investigadores quieren identificar las variables que afectan el precio de venta. Las variables incluyen el tamaño del lote y diversas características de la propiedad residencial.

Después de la exploración inicial con Regresión CART® para identificar los predictores importantes, el equipo utiliza Regresión Random Forests® para crear un modelo más intensivo a partir del mismo conjunto de datos. El equipo compara la tabla de resumen del modelo y la gráfica de R2 provenientes de los resultados para evaluar qué modelo proporciona un mejor resultado de predicción.

Estos datos se adaptaron con base en un conjunto de datos públicos que contiene información acerca de los datos de vivienda de Ames. Datos originales provenientes de DeCock, Truman State University.

  1. Abra el conjunto de datos de muestra Ames_vivienda.MTW.
  2. Elija Módulo de análisis predictivo > Regresión Random Forests®.
  3. En Respuesta, ingrese Precio de venta.
  4. En Predictores continuos, ingrese fachada de loteaño vendido.
  5. En Predictores categóricos, ingrese tipoestado de venta.
  6. Haga clic en Opciones.
  7. En Number of predictors for node splitting, elija K por ciento del número total de predictores; K = e ingrese 30. Los investigadores desean utilizar más que el número predeterminado de predictores para este análisis.
  8. Haga clic en Aceptar en cada cuadro de diálogo.

Interpretar los resultados

Para este análisis, el número de observaciones es 2930. Cada una de las 300 muestras de la secuencia de arranque selecciona 2930 observaciones de forma aleatoria, con reemplazo, para crear un árbol. El método también utiliza 30% del número total de predictores para dividir los nodos. Además, la tabla de información de respuesta muestra estadísticas descriptivas comunes para las observaciones.

Random Forests® Regresión: Precio de ve vs fachada de l, área de lote, ...

Método Validación del modelo Validación con datos de "out-of-bag" Número de muestras de bootstrap 300 Tamaño de la muestra: Igual que el tamaño de los datos de entrenamiento de 2930 Número de predictores seleccionados para la división de nodos 30% del número total de predictores = 23 Tamaño mínimo del nodo interno 5 Filas utilizadas 2930
Información de respuesta Media Desv.Est. Mínimo Q1 Mediana Q3 Máximo 180796 79886.7 12789 129500 160000 213500 755000

La gráfica de R-cuadrada vs. número de árboles muestra toda la curva del número de árboles creados. El valor de R2 incrementa rápidamente a medida que aumenta el número de árboles, después se aplana en aproximadamente 91%.

Random Forests® Regresión: Precio de ve vs fachada de l, área de lote, ...

Resumen del modelo Total de predictores 77 Predictores importantes 68 Estadísticas Out-of-Bag R-cuadrado 90.90% Raíz de los cuadrados medios del error (RMSE) 24097.3281 Cuadrado medio del error (MSE) 580681222.4890 Desviación absoluta media (MAD) 14746.8323 Media del error porcentual absoluto (MAPE) 0.0895

La tabla resumen del modelo muestra que los valores de R2 han mejorado ligeramente con respecto a los valores de R2 del análisis CART® correspondiente.

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante para predecir el precio de venta es calidad. Si la importancia de la variable predictora más importante, calidad, es del 100%, entonces la siguiente variable importante, área de vivienda SF, tiene una contribución del 88.8%. Esto significa que los metros cuadrados de la vivienda son el 88.8% tan importantes como la calidad general de la propiedad. La siguiente variable más importante es vecindario que tiene una contribución del 52.6%.

El diagrama de dispersión del precio de venta ajustado frente al precio de venta real muestra la relación entre los valores ajustados y los valores reales para los datos OOB. Puede pasar el cursor sobre los puntos de la gráfica para ver más fácilmente los valores graficados. En este ejemplo, muchos puntos caen aproximadamente cerca de la línea de referencia de y=x, pero varios puntos pueden necesitar investigación para ver discrepancias entre los valores ajustados y los reales.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política