Porcentaje de estadísticos del error debido a los residuos más grandes para Regresión CART^®

Utilice el porcentaje de estadísticos del error para examinar la cantidad de error en los ajustes del árbol a partir de los peores ajustes. Cuando el análisis utiliza una técnica de validación, también puede comparar los estadísticos del árbol para los datos de entrenamiento y de prueba.

Cada fila de la tabla muestra los estadísticos del error para el porcentaje dado de residuos. El porcentaje del cuadrado medio del error (MSE) que proviene de los residuos más grandes es generalmente mayor que el porcentaje de los otros dos estadísticos. El MSE utiliza los cuadrados de los errores en los cálculos, así que las observaciones más extremas normalmente tienen mayor influencia en el estadístico. Grandes diferencias entre el porcentaje de error para el MSE y las otras dos medidas puede indicar que el árbol es más sensible a la selección de dividir los nodos con mínimo cuadrado del error o con desviación absoluta mínima.

Cuando se utiliza una técnica de validación, Minitab calcula estadísticos separados para los datos de entrenamiento y de prueba. Puede comparar los estadísticos para examinar el rendimiento relativo del árbol en los datos de entrenamiento y en nuevos datos. Los estadísticos de prueba suelen ser una mejor medida de cómo será el rendimiento del árbol para nuevos datos.

Un patrón posible es que un pequeño porcentaje de los residuos explique gran parte del error en los datos. Por ejemplo, en la tabla siguiente, el tamaño total del conjunto de datos es de aproximadamente 4500. Desde la perspectiva del MSE, eso indica que el 1% de los datos explican alrededor del 12% del error. En ese caso, los 45 casos que aportan la mayor parte del error al árbol pueden representar la oportunidad más natural de mejorar el árbol. Encontrar una manera de mejorar los ajustes para esos casos conduce a un aumento relativamente grande del rendimiento general del árbol.

Esta condición también puede indicar que puede tener una mayor confianza en los nodos del árbol que no tiene casos con los errores más grandes. Debido a que la mayor parte del error proviene de un pequeño número de casos, los ajustes para los otros casos son relativamente más exactos.

Porcentaje de estadísticas del error debido a los residuos más grandes

% de los residuos más grandes

		Entrenamiento			Prueba
	Conteo	% MSE	% MAD	% MAPE	% MSE	% MAD	% MAPE
1.0	45	12.0662	4.4286	17.0993	11.7595	4.3601	16.9809
2.0	90	19.6105	7.9590	27.7611	19.0639	7.8242	28.0537
2.5	112	22.6611	9.5292	31.4313	22.0671	9.3775	31.8497
3.0	134	25.4267	11.0245	35.1014	24.7926	10.8576	35.4683
4.0	179	30.3473	13.8759	42.6086	29.7103	13.7003	42.7628
5.0	223	34.5866	16.4938	49.9489	33.9523	16.3116	49.8103
7.5	334	43.2672	22.4419	63.2850	43.0319	22.3750	63.0140
10.0	446	50.4797	27.8875	70.7239	50.3414	27.8406	70.3832
15.0	668	61.1200	37.1919	78.5216	61.0161	37.1327	78.1782
20.0	891	69.2319	45.3354	82.5577	69.0602	45.2227	82.2440

Porcentaje de estadísticos del error debido a los residuos más grandes para Regresión CART®

Porcentaje de estadísticas del error debido a los residuos más grandes

Porcentaje de estadísticos del error debido a los residuos más grandes para Regresión CART^®