Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.
Un equipo de investigadores quiere utilizar datos sobre un prestatario y la ubicación de una propiedad para predecir el monto de una hipoteca. Las variables incluyen los ingresos, la raza y el sexo del prestatario, así como la ubicación del área de censo de la propiedad, y otra información sobre el prestatario y el tipo de propiedad.
Después de la exploración inicial para Regresión CART® identificar los predictores importantes, el equipo ahora considera Regresión TreeNet® como un paso de seguimiento necesario. Los investigadores esperan obtener más información sobre las relaciones entre la respuesta y los predictores importantes y predecir nuevas observaciones con mayor exactitud.
Estos datos se adaptaron sobre la base de un conjunto de datos públicos que contiene información sobre las hipotecas de los bancos federales de préstamos para viviendas. Los datos originales son de fhfa.gov.
Para este análisis, Minitab cultiva 300 árboles y el número óptimo de árboles es 300. Debido a que el número óptimo de árboles está cerca del número máximo de árboles que crece el modelo, los investigadores repiten el análisis con más árboles.
Total de predictores | 34 |
---|---|
Predictores importantes | 19 |
Número de árboles cultivados | 300 |
Número óptimo de árboles | 300 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
R-cuadrado | 94.02% | 84.97% |
Raíz de los cuadrados medios del error (RMSE) | 32334.5587 | 51227.9431 |
Cuadrado medio del error (MSE) | 1.04552E+09 | 2.62430E+09 |
Desviación absoluta media (MAD) | 22740.1020 | 35974.9695 |
Media del error porcentual absoluto (MAPE) | 0.1238 | 0.1969 |
Para este análisis, hubo 500 árboles cultivados y el número óptimo de árboles para la combinación de hiperparámetros con el mejor valor del criterio de precisión es 500. La fracción de la submuestra cambia a 0.7 en lugar de 0.5 en el análisis original. La tasa de aprendizaje cambia a 0.0437 en lugar de 0.04372 en el análisis original.
Examine tanto la tabla de resumen del modelo como el gráfico R-cuadrado vs Número de árboles. El valor de R2 cuando el número de árboles es 500 es 86.79% para los datos de prueba y es 96.41% para los datos de entrenamiento. Estos resultados muestran una mejoría con respecto a un análisis de regresión tradicional y un Regresión CART®.
Función de pérdida | Error cuadrático |
---|---|
Criterio para seleccionar un número óptimo de árboles | R-cuadrado máximo |
Validación del modelo | Validación cruzada de 3 pliegues |
Tasa de aprendizaje | 0.04372 |
Fracción de submuestra | 0.5 |
Máximo de nodos terminales por árbol | 6 |
Tamaño mínimo del nodo terminal | 3 |
Número de predictores seleccionados para la división de nodos | Número total de predictores = 34 |
Filas utilizadas | 4372 |
Media | Desv.Est. | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
235217 | 132193 | 23800 | 136000 | 208293 | 300716 | 1190000 |
Función de pérdida | Error cuadrático |
---|---|
Criterio para seleccionar un número óptimo de árboles | R-cuadrado máximo |
Validación del modelo | Validación cruzada de 3 pliegues |
Tasa de aprendizaje | 0.001, 0.0437, 0.1 |
Fracción de submuestra | 0.5, 0.7 |
Máximo de nodos terminales por árbol | 6 |
Tamaño mínimo del nodo terminal | 3 |
Número de predictores seleccionados para la división de nodos | Número total de predictores = 34 |
Filas utilizadas | 4372 |
Media | Desv.Est. | Mínimo | Q1 | Mediana | Q3 | Máximo |
---|---|---|---|---|---|---|
235217 | 132193 | 23800 | 136000 | 208293 | 300716 | 1190000 |
Modelo | Número óptimo de árboles | R-cuadrado (%) | Desviación absoluta media | Tasa de aprendizaje | Fracción de submuestra | Máximo de nodos terminales |
---|---|---|---|---|---|---|
1 | 500 | 36.43 | 82617.1 | 0.0010 | 0.5 | 6 |
2 | 495 | 85.87 | 34560.5 | 0.0437 | 0.5 | 6 |
3 | 495 | 85.63 | 34889.3 | 0.1000 | 0.5 | 6 |
4 | 500 | 36.86 | 82145.0 | 0.0010 | 0.7 | 6 |
5* | 500 | 86.79 | 33052.6 | 0.0437 | 0.7 | 6 |
6 | 451 | 86.67 | 33262.3 | 0.1000 | 0.7 | 6 |
Total de predictores | 34 |
---|---|
Predictores importantes | 24 |
Número de árboles cultivados | 500 |
Número óptimo de árboles | 500 |
Estadísticas | Entrenamiento | Prueba |
---|---|---|
R-cuadrado | 96.41% | 86.79% |
Raíz de los cuadrados medios del error (RMSE) | 25035.7243 | 48029.9503 |
Cuadrado medio del error (MSE) | 6.26787E+08 | 2.30688E+09 |
Desviación absoluta media (MAD) | 17309.3936 | 33052.6087 |
Media del error porcentual absoluto (MAPE) | 0.0930 | 0.1790 |