Ejemplo de Ajustar modelo para Regresión TreeNet^®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Un equipo de investigadores quiere utilizar datos sobre un prestatario y la ubicación de una propiedad para predecir el monto de una hipoteca. Las variables incluyen los ingresos, la raza y el sexo del prestatario, así como la ubicación del área de censo de la propiedad, y otra información sobre el prestatario y el tipo de propiedad.

Después de la exploración inicial para Regresión CART^® identificar los predictores importantes, el equipo ahora considera Regresión TreeNet^® como un paso de seguimiento necesario. Los investigadores esperan obtener más información sobre las relaciones entre la respuesta y los predictores importantes y predecir nuevas observaciones con mayor exactitud.

Estos datos se adaptaron sobre la base de un conjunto de datos públicos que contiene información sobre las hipotecas de los bancos federales de préstamos para viviendas. Los datos originales son de fhfa.gov.

Abra el conjunto de datos de muestra HipotecasCompradas.MWX.
Elija Módulo de análisis predictivo > Regresión TreeNet® > Ajustar modelo.
En Respuesta, entra 'Cant. préstamo'.
En Predictores continuos, entra 'Ingreso anual' – 'Ingreso del área'.
En Predictores categóricos, entra 'Comprador primerizo' – 'Área est. con núcleo'.
Haga clic en Validación.
En Método de validación, seleccione Validación cruzada de K pliegues.
En Número de pliegues (K), ingrese 3.
Haga clic en Aceptar en cada cuadro de diálogo.

Interpretar los resultados

Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 300. Debido a que el número óptimo de árboles está cerca del número máximo de árboles que crece el modelo, los investigadores repiten el análisis con más árboles.

Resumen del modelo

Total de predictores	34
Predictores importantes	19
Número de árboles cultivados	300
Número óptimo de árboles	300

Estadísticas	Entrenamiento	Validación cruzada
R-cuadrado	94.02%	84.97%
Raíz de los cuadrados medios del error (RMSE)	32334.5587	51227.9431
Cuadrado medio del error (MSE)	1.04552E+09	2.62430E+09
Desviación absoluta media (MAD)	22740.1020	35974.9695
Media del error porcentual absoluto (MAPE)	0.1238	0.1969

Ejemplo con 500 árboles

Seleccione Ajustar hiperparámetros en los resultados.
En Número de árboles, ingrese 500.
Haga clic en Mostrar resultados.

Interpretar los resultados

Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles para la combinación de hiperparámetros con el mejor valor del criterio de precisión es 500. La fracción de la submuestra cambia a 0.7 en lugar de 0.5 en el análisis original. La tasa de aprendizaje cambia a 0.0437 en lugar de 0.04372 en el análisis original.

Examine tanto la tabla de resumen del modelo como el gráfico R-cuadrado vs Número de árboles. El valor de R² cuando el número de árboles es 500 es del 86,79% para los resultados de validación y del 96,41% para los datos de entrenamiento. Estos resultados muestran una mejoría con respecto a un análisis de regresión tradicional y un Regresión CART^®.

Método

Función de pérdida	Error cuadrático
Criterio para seleccionar un número óptimo de árboles	R-cuadrado máximo
Validación del modelo	Validación cruzada de 3 pliegues
Tasa de aprendizaje	0.04372
Fracción de submuestra	0.5
Máximo de nodos terminales por árbol	6
Tamaño mínimo del nodo terminal	3
Número de predictores seleccionados para la división de nodos	Número total de predictores = 34
Filas utilizadas	4372

Información de respuesta

Media	Desv.Est.	Mínimo	Q1	Mediana	Q3	Máximo
235217	132193	23800	136000	208293	300716	1190000

Regresión TreeNet® con ajuste de hiperparámetros: Cant. préstamo vs. Ingreso anual, Rel. de ingresos, Rel. de front-end, Rel. de back-end, N.º de prestatarios, Edad, Edad coprestatario, Pct. min. sec. censal, Ingreso sec. censal, Ingreso local, Ingreso del área, Comprador primerizo, Cód. ocupación, Autónomo, Raza coprest. 4, Raza coprest. 5, Propósito préstamo, Sexo, N.º de unidades, Grupo étnico, Raza coprest. 3, Sexo del coprest., Raza 2, Gr. étnico coprest., Puntuación de crédito, Puntuación de crédito coprest., Raza, Raza coprest. 2, Raza coprest., Tipo de prop., Dtto. Federal, Cód. estado, Cód. condado, Área est. con núcleo

Método

Función de pérdida	Error cuadrático
Criterio para seleccionar un número óptimo de árboles	R-cuadrado máximo
Validación del modelo	Validación cruzada de 3 pliegues
Tasa de aprendizaje	0.001, 0.0437, 0.1
Fracción de submuestra	0.5, 0.7
Máximo de nodos terminales por árbol	6
Tamaño mínimo del nodo terminal	3
Número de predictores seleccionados para la división de nodos	Número total de predictores = 34
Filas utilizadas	4372

Información de respuesta

Media	Desv.Est.	Mínimo	Q1	Mediana	Q3	Máximo
235217	132193	23800	136000	208293	300716	1190000

Optimización de hiperparámetros

Validación cruzada

Modelo	Número óptimo de árboles	R-cuadrado (%)	Desviación absoluta media	Tasa de aprendizaje	Fracción de submuestra	Máximo de nodos terminales
1	500	36.43	82617.1	0.0010	0.5	6
2	495	85.87	34560.5	0.0437	0.5	6
3	495	85.63	34889.3	0.1000	0.5	6
4	500	36.86	82145.0	0.0010	0.7	6
5*	500	86.79	33052.6	0.0437	0.7	6
6	451	86.67	33262.3	0.1000	0.7	6

Resumen del modelo

Total de predictores	34
Predictores importantes	24
Número de árboles cultivados	500
Número óptimo de árboles	500

Estadísticas	Entrenamiento	Validación cruzada
R-cuadrado	96.41%	86.79%
Raíz de los cuadrados medios del error (RMSE)	25035.7243	48029.9503
Cuadrado medio del error (MSE)	6.26787E+08	2.30688E+09
Desviación absoluta media (MAD)	17309.3936	33052.6087
Media del error porcentual absoluto (MAPE)	0.0930	0.1790