Porcentaje de estadísticas de error debido a los mayores residuos para Ajustar modelo y Descubrir predictores clave con Regresión TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Utilice el porcentaje de estadísticos de error para examinar la cantidad de error en los ajustes del modelo a partir de los peores ajustes. Cuando el análisis utiliza una técnica de validación, usted también puede comparar los estadísticos del modelo para los datos de entrenamiento y de prueba.

Cada fila de la tabla muestra los estadísticos del error para el porcentaje dado de residuos. El porcentaje del cuadrado medio del error (MSE) que proviene de los residuos más grandes es generalmente mayor que el porcentaje de los otros dos estadísticos. El MSE utiliza los cuadrados de los errores en los cálculos, así que las observaciones más extremas normalmente tienen mayor influencia en el estadístico. Grandes diferencias entre el porcentaje de error para el MSE y las otras dos medidas puede indicar que el modelo es más sensible a la selección de dividir los nodos con mínimo cuadrado del error. o con desviación absoluta mínima.

Cuando se utiliza una técnica de validación, Minitab calcula estadísticos separados para los datos de entrenamiento y de prueba. Puede comparar los estadísticos para examinar el rendimiento relativo del modelo en los datos de entrenamiento y en nuevos datos. Los estadísticos de prueba suelen ser una mejor medida de cómo será el rendimiento del modelo con nuevos datos.

Un patrón posible es que un pequeño porcentaje de los residuos explique gran parte del error en los datos. Por ejemplo, en la tabla siguiente, el tamaño total del conjunto de datos es de aproximadamente 4400. Desde la perspectiva del MSE, eso indica que el 1% de los datos representan aproximadamente el 13% del error. En ese caso, los 31 casos que aportan la mayor parte del error al modelo pueden representar la oportunidad más natural de mejorar el modelo. Encontrar una manera de mejorar los ajustes para esos casos conduce a un aumento relativamente grande en el rendimiento general del modelo.

Esta condición también puede indicar que usted puede tener mayor confianza en los nodos del modelo que no incluyen casos con los errores más grandes. Debido a que la mayor parte del error proviene de un pequeño número de casos, los ajustes para los otros casos son relativamente más exactos.

Regresión TreeNet®: Cant. présta vs Ingreso anua, Rel. de ingr, ...

Porcentaje de estadísticas del error debido a los residuos más grandes % de los residuos más Entrenamiento Prueba grandes Conteo % MSE % MAD % MAPE Conteo % MSE % MAD % MAPE 1.0 31 13.2824 4.9997 8.0885 14 21.6989 6.9082 9.0517 2.0 62 21.3764 8.9374 12.9910 27 31.9396 11.6377 14.0987 2.5 77 24.7125 10.6967 14.9989 33 35.7935 13.6106 16.1761 3.0 93 27.9315 12.4817 17.0128 40 39.8022 15.7838 18.4925 4.0 123 33.2979 15.6372 20.4671 53 45.8259 19.4124 22.4744 5.0 154 38.1707 18.6937 23.7785 66 50.8291 22.7194 25.9526 7.5 231 47.9001 25.4954 31.0104 98 59.7000 29.6264 33.2548 10.0 307 55.3764 31.4216 37.0787 131 66.4339 35.7333 39.2610 15.0 461 66.7462 41.8167 47.2740 196 75.4853 45.6703 48.6658 20.0 614 74.8066 50.5429 55.5443 261 81.6292 53.8603 56.3489