Porcentaje de estadísticas de error debido a los mayores residuos para Ajustar modelo y Descubrir predictores clave con Regresión TreeNet^®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Utilice el porcentaje de estadísticos de error para examinar la cantidad de error en los ajustes del modelo a partir de los peores ajustes. Cuando el análisis utiliza una técnica de validación, usted también puede comparar los estadísticos del modelo para los datos de entrenamiento y de prueba.

Cada fila de la tabla muestra los estadísticos del error para el porcentaje dado de residuos. El porcentaje del cuadrado medio del error (MSE) que proviene de los residuos más grandes es generalmente mayor que el porcentaje de los otros dos estadísticos. El MSE utiliza los cuadrados de los errores en los cálculos, así que las observaciones más extremas normalmente tienen mayor influencia en el estadístico. Grandes diferencias entre el porcentaje de error para el MSE y las otras dos medidas puede indicar que el modelo es más sensible a la selección de dividir los nodos con mínimo cuadrado del error. o con desviación absoluta mínima.

Cuando se utiliza una técnica de validación, Minitab calcula estadísticos separados para los datos de entrenamiento y de prueba. Puede comparar los estadísticos para examinar el rendimiento relativo del modelo en los datos de entrenamiento y en nuevos datos. Los estadísticos de prueba suelen ser una mejor medida de cómo será el rendimiento del modelo con nuevos datos.

Un patrón posible es que un pequeño porcentaje de los residuos explique gran parte del error en los datos. Por ejemplo, en la tabla siguiente, el tamaño total del conjunto de datos es de aproximadamente 4400. Desde la perspectiva del MSE, eso indica que el 1% de los datos representan aproximadamente el 13% del error. En ese caso, los 31 casos que aportan la mayor parte del error al modelo pueden representar la oportunidad más natural de mejorar el modelo. Encontrar una manera de mejorar los ajustes para esos casos conduce a un aumento relativamente grande en el rendimiento general del modelo.

Esta condición también puede indicar que usted puede tener mayor confianza en los nodos del modelo que no incluyen casos con los errores más grandes. Debido a que la mayor parte del error proviene de un pequeño número de casos, los ajustes para los otros casos son relativamente más exactos.

Porcentaje de estadísticas del error debido a los residuos más grandes

% de los residuos más grandes

	Entrenamiento				Prueba
	Conteo	% MSE	% MAD	% MAPE	Conteo	% MSE	% MAD	% MAPE
1.0	31	13.2824	4.9997	8.0885	14	21.6989	6.9082	9.0517
2.0	62	21.3764	8.9374	12.9910	27	31.9396	11.6377	14.0987
2.5	77	24.7125	10.6967	14.9989	33	35.7935	13.6106	16.1761
3.0	93	27.9315	12.4817	17.0128	40	39.8022	15.7838	18.4925
4.0	123	33.2979	15.6372	20.4671	53	45.8259	19.4124	22.4744
5.0	154	38.1707	18.6937	23.7785	66	50.8291	22.7194	25.9526
7.5	231	47.9001	25.4954	31.0104	98	59.7000	29.6264	33.2548
10.0	307	55.3764	31.4216	37.0787	131	66.4339	35.7333	39.2610
15.0	461	66.7462	41.8167	47.2740	196	75.4853	45.6703	48.6658
20.0	614	74.8066	50.5429	55.5443	261	81.6292	53.8603	56.3489

Porcentaje de estadísticas de error debido a los mayores residuos para Ajustar modelo y Descubrir predictores clave con Regresión TreeNet®

Nota

Porcentaje de estadísticas del error debido a los residuos más grandes

Porcentaje de estadísticas de error debido a los mayores residuos para Ajustar modelo y Descubrir predictores clave con Regresión TreeNet^®