Percentual de estatísticas de erro devido aos maiores resíduos para Regressão CART®

Use o percentual da estatística de erros para examinar a quantidade de erro nos ajustes da árvore provenientes dos piores ajustes. Quando a análise utiliza uma técnica de validação, você também pode comparar a precisão da árvore para os dados de treinamento e os resultados da validação.

Cada linha da tabela mostra a estatística de erro para o percentual dado de resíduos. A porcentagem do Erro Quadrático Médio (MSE) que vem dos maiores resíduos geralmente é maior do que a porcentagem das outras duas estatísticas. O MSE utiliza os quadrados dos erros nos cálculos, de modo que as observações mais extremas normalmente exercem a maior influência sobre a estatística. Grandes diferenças entre a porcentagem de erro da MSE e das outras duas medidas podem indicar que a árvore é mais sensível à seleção de dividir os nós com menor erro quadrático ou menor desvio absoluto.

Quando você usa uma técnica de validação, o Minitab calcula estatísticas separadas para os dados de treinamento e para os resultados da validação. Você pode comparar a estatística para examinar o desempenho relativo do modelo nos dados de treinamento e em novos dados. As estatísticas de validação geralmente são uma medida melhor de como o modelo irá se comportar para novos dados.

Um possível padrão é que um pequena percentual dos resíduos responda por grande parte do erro nos dados. Por exemplo, na tabela a seguir, o tamanho total do conjunto de dados é de aproximadamente 4500. Sob a perspectiva do MSE, isso indica que 1% dos dados respondem por cerca de 12% do erro. Nesse caso, os 45 casos que contribuem com a maior parte do erro para a árvore podem representar a oportunidade mais natural para melhorar a árvore. Encontrar uma maneira de melhorar os ajustes para esses casos leva a um aumento relativamente grande no desempenho geral da árvore.

Essa condição também pode indicar que você pode ter maior confiança nos nós da árvore que não têm casos com os maiores erros. Como a maior parte do erro vem de um pequeno número de casos, os ajustes para os outros casos são relativamente mais exatos.

Por cento de estatísticas de erro devido aos maiores resíduos

% de maiores
resíduos

TreinamentoValidação cruzada
Contagem% MSE% DAM% MAPE% MSE% DAM% MAPE
1,04512,06624,428617,099311,75954,360116,9809
2,09019,61057,959027,761119,06397,824228,0537
2,511222,66119,529231,431322,06719,377531,8497
3,013425,426711,024535,101424,792610,857635,4683
4,017930,347313,875942,608629,710313,700342,7628
5,022334,586616,493849,948933,952316,311649,8103
7,533443,267222,441963,285043,031922,375063,0140
10,044650,479727,887570,723950,341427,840670,3832
15,066861,120037,191978,521661,016137,132778,1782
20,089169,231945,335482,557769,060245,222782,2440