Ejemplo de Ajustar modelo para Regresión TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores quiere utilizar datos sobre un prestatario y la ubicación de una propiedad para predecir el monto de una hipoteca. Las variables incluyen los ingresos, la raza y el sexo del prestatario, así como la ubicación del área de censo de la propiedad, y otra información sobre el prestatario y el tipo de propiedad.

Después de la exploración inicial para Regresión CART® identificar los predictores importantes, el equipo ahora considera Regresión TreeNet® como un paso de seguimiento necesario. Los investigadores esperan obtener más información sobre las relaciones entre la respuesta y los predictores importantes y predecir nuevas observaciones con mayor exactitud.

Estos datos se adaptaron sobre la base de un conjunto de datos públicos que contiene información sobre las hipotecas de los bancos federales de préstamos para viviendas. Los datos originales son de fhfa.gov.

  1. Abra el conjunto de datos de muestra HipotecasCompradas.MTW.
  2. Elija Módulo de análisis predictivo > Regresión TreeNet® > Ajustar modelo.
  3. En Respuesta, ingrese Cant. préstamo.
  4. En Predictores continuos, escriba Ingreso anualIngreso del área.
  5. En Predictores categóricos, escriba Comprador primerizoÁrea est. con núcleo.
  6. Haga clic en Validación.
  7. En Método de validación, seleccione Validación cruzada de K pliegues.
  8. En Número de pliegues (K), ingrese 3.
  9. Haga clic en Aceptar en cada cuadro de diálogo.

Interpretar los resultados

Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 300. Debido a que el número óptimo de árboles está cerca del número máximo de árboles que crece el modelo, los investigadores repiten el análisis con más árboles.

Resumen del modelo

Total de predictores34
Predictores importantes19
Número de árboles cultivados300
Número óptimo de árboles300
EstadísticasEntrenamientoPrueba
R-cuadrado94.02%84.97%
Raíz de los cuadrados medios del error (RMSE)32334.558751227.9431
Cuadrado medio del error (MSE)1.04552E+092.62430E+09
Desviación absoluta media (MAD)22740.102035974.9695
Media del error porcentual absoluto (MAPE)0.12380.1969

Ejemplo con 500 árboles

  1. Seleccione Ajustar hiperparámetros en los resultados.
  2. En Número de árboles, ingrese 500.
  3. Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles para la combinación de hiperparámetros con el mejor valor del criterio de precisión es 500. La fracción de la submuestra cambia a 0.7 en lugar de 0.5 en el análisis original. La tasa de aprendizaje cambia a 0.0437 en lugar de 0.04372 en el análisis original.

Examine tanto la tabla de resumen del modelo como el gráfico R-cuadrado vs Número de árboles. El valor de R2 cuando el número de árboles es 500 es 86.79% para los datos de prueba y es 96.41% para los datos de entrenamiento. Estos resultados muestran una mejoría con respecto a un análisis de regresión tradicional y un Regresión CART®.

Método

Función de pérdidaError cuadrático
Criterio para seleccionar un número óptimo de árbolesR-cuadrado máximo
Validación del modeloValidación cruzada de 3 pliegues
Tasa de aprendizaje0.04372
Fracción de submuestra0.5
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 34
Filas utilizadas4372

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
235217132193238001360002082933007161190000
Regresión TreeNet® con ajuste de hiperparámetros: Cant. préstamo vs. Ingreso anual, Rel. de ingresos, Rel. de front-end, Rel. de back-end, N.º de prestatarios, Edad, Edad coprestatario, Pct. min. sec. censal, Ingreso sec. censal, Ingreso local, Ingreso del área, Comprador primerizo, Cód. ocupación, Autónomo, Raza coprest. 4, Raza coprest. 5, Propósito préstamo, Sexo, N.º de unidades, Grupo étnico, Raza coprest. 3, Sexo del coprest., Raza 2, Gr. étnico coprest., Puntuación de crédito, Puntuación de crédito coprest., Raza, Raza coprest. 2, Raza coprest., Tipo de prop., Dtto. Federal, Cód. estado, Cód. condado, Área est. con núcleo

Método

Función de pérdidaError cuadrático
Criterio para seleccionar un número óptimo de árbolesR-cuadrado máximo
Validación del modeloValidación cruzada de 3 pliegues
Tasa de aprendizaje0.001, 0.0437, 0.1
Fracción de submuestra0.5, 0.7
Máximo de nodos terminales por árbol6
Tamaño mínimo del nodo terminal3
Número de predictores seleccionados para la división de nodosNúmero total de predictores = 34
Filas utilizadas4372

Información de respuesta

MediaDesv.Est.MínimoQ1MedianaQ3Máximo
235217132193238001360002082933007161190000

Optimización de hiperparámetros

Prueba
ModeloNúmero
óptimo de
árboles
R-cuadrado
(%)
Desviación
absoluta
media
Tasa de
aprendizaje
Fracción de
submuestra
Máximo de
nodos
terminales
150036.4382617.10.00100.56
249585.8734560.50.04370.56
349585.6334889.30.10000.56
450036.8682145.00.00100.76
5*50086.7933052.60.04370.76
645186.6733262.30.10000.76
* El modelo óptimo tiene el R-cuadrado máximo. A continuación se muestra la salida del modelo
     óptimo.

Resumen del modelo

Total de predictores34
Predictores importantes24
Número de árboles cultivados500
Número óptimo de árboles500
EstadísticasEntrenamientoPrueba
R-cuadrado96.41%86.79%
Raíz de los cuadrados medios del error (RMSE)25035.724348029.9503
Cuadrado medio del error (MSE)6.26787E+082.30688E+09
Desviación absoluta media (MAD)17309.393633052.6087
Media del error porcentual absoluto (MAPE)0.09300.1790

La gráfica Importancia relativa de las variables presenta los predictores en el orden de su efecto en la mejora del modelo cuando se realizan divisiones en un predictor sobre la secuencia de árboles. La variable predictora más importante es Área estadística basada en núcleo. Si la importancia de la variable predictora superior, el Área Estadística Basada en el Núcleo, es del 100%, entonces la siguiente variable importante, el Ingreso Anual, tiene una contribución del 92.8%. Esto significa que el ingreso anual del prestatario es 92.8% tan importante como la ubicación geográfica de la propiedad.

La gráfica de dispersión de las cantidades ajustadas de los préstamos vs. las cantidades reales de los préstamos muestra la relación entre los valores ajustados y reales tanto para los datos de entrenamiento como para los datos de prueba. Puede pasar el cursor sobre los puntos de la gráfica para ver más fácilmente los valores graficados. En este ejemplo, todos los puntos se encuentran aproximadamente cerca de la línea de referencia de y=x.

Utilice las gráficas de dependencia parcial para obtener información sobre cómo las variables o pares de variables importantes afectan los valores de respuesta ajustados. Las gráficas de dependencia parcial muestran si la relación entre la respuesta y una variable es lineal, monótona o más compleja.

La primera gráfica ilustra la cantidad ajustada del préstamo para cada área estadística basada en núcleo. Dado que hay tantos puntos de datos, puede pasar el cursor sobre puntos de datos individuales para ver los valores específicos de X y Y. Por ejemplo, el punto más alto en el lado derecho de la gráfica corresponde al área basada en núcleo número 41860 y la cantidad ajustada del préstamo es aproximadamente $378069

La segunda gráfica ilustra que la cantidad ajustada del préstamo aumenta a medida que aumenta el ingreso anual. Después de que el ingreso anual alcanza los $ 300000, los niveles de monto del préstamo ajustado aumentan a un ritmo más lento.

La tercera gráfica ilustra que el monto del préstamo ajustado aumenta a medida que aumenta la relación inicial.

El cuarto gráfico ilustra el monto del préstamo ajustado para cada código de condado censal. Al igual que con la primera gráfica, puede pasar el cursor sobre ciertos puntos de datos para obtener más información. Seleccione Gráficos de un predictor o Gráficos de dos predictores para producir gráficos para otras variables.