Percentual da estatística de erros devido aos maiores resíduos para Regressão CART^®

Use o percentual da estatística de erros para examinar a quantidade de erro nos ajustes da árvore provenientes dos piores ajustes. Quando a análise utiliza uma técnica de validação, você também pode comparar a estatística da árvore para os dados de treinamento e teste.

Cada linha da tabela mostra a estatística de erro para o percentual dado de resíduos. O percentual do Erro Padrão Médio (MSE) que vem dos maiores resíduos geralmente é maior do que o percentual para as outras duas estatísticas. O MSE utiliza os quadrados dos erros nos cálculos, de modo que as observações mais extremas normalmente exercem a maior influência sobre a estatística. Diferenças grandes entre o percentual de erro para o MSE e as outras duas medidas podem indicar que a árvore é mais sensível à seleção da divisão dos nós com o erro mínimo quadrado ou o desvio absoluto mínimo.

Quando você usa uma técnica de validação, o Minitab calcula estatísticas separadas para os dados de treinamento e para os dados de teste. Você pode comparar a estatística para examinar o desempenho relativo da árvore nos dados de treinamento e em novos dados. Normalmente, a estatística de teste é uma medida melhor do desempenho da árvore para novos dados.

Um possível padrão é que um pequena percentual dos resíduos responda por grande parte do erro nos dados. Por exemplo, na tabela a seguir, o tamanho total do conjunto de dados é de aproximadamente 4500. Sob a perspectiva do MSE, isso indica que 1% dos dados respondem por cerca de 12% do erro. Nesse caso, os 45 casos que contribuem com a maior parte do erro para a árvore podem representar a oportunidade mais natural para melhorar a árvore. Encontrar uma maneira de melhorar os ajustes para esses casos leva a um aumento relativamente grande no desempenho geral da árvore.

Essa condição também pode indicar que você pode ter maior confiança nos nós da árvore que não têm casos com os maiores erros. Como a maior parte do erro vem de um pequeno número de casos, os ajustes para os outros casos são relativamente mais exatos.

Por cento de estatísticas de erro devido aos maiores resíduos

% de maiores resíduos		Treinamento			Teste
% de maiores resíduos	Contagem	% MSE	% DAM	% MAPE	% MSE	% DAM	% MAPE
1,0	45	12,0662	4,4286	17,0993	11,7595	4,3601	16,9809
2,0	90	19,6105	7,9590	27,7611	19,0639	7,8242	28,0537
2,5	112	22,6611	9,5292	31,4313	22,0671	9,3775	31,8497
3,0	134	25,4267	11,0245	35,1014	24,7926	10,8576	35,4683
4,0	179	30,3473	13,8759	42,6086	29,7103	13,7003	42,7628
5,0	223	34,5866	16,4938	49,9489	33,9523	16,3116	49,8103
7,5	334	43,2672	22,4419	63,2850	43,0319	22,3750	63,0140
10,0	446	50,4797	27,8875	70,7239	50,3414	27,8406	70,3832
15,0	668	61,1200	37,1919	78,5216	61,0161	37,1327	78,1782
20,0	891	69,2319	45,3354	82,5577	69,0602	45,2227	82,2440

Percentual da estatística de erros devido aos maiores resíduos para Regressão CART®

Por cento de estatísticas de erro devido aos maiores resíduos

Percentual da estatística de erros devido aos maiores resíduos para Regressão CART^®