Percentual da estatística de erros devido aos maiores resíduos para Regressão CART®

Use o percentual da estatística de erros para examinar a quantidade de erro nos ajustes da árvore provenientes dos piores ajustes. Quando a análise utiliza uma técnica de validação, você também pode comparar a estatística da árvore para os dados de treinamento e teste.

Cada linha da tabela mostra a estatística de erro para o percentual dado de resíduos. O percentual do Erro Padrão Médio (MSE) que vem dos maiores resíduos geralmente é maior do que o percentual para as outras duas estatísticas. O MSE utiliza os quadrados dos erros nos cálculos, de modo que as observações mais extremas normalmente exercem a maior influência sobre a estatística. Diferenças grandes entre o percentual de erro para o MSE e as outras duas medidas podem indicar que a árvore é mais sensível à seleção da divisão dos nós com o erro mínimo quadrado ou o desvio absoluto mínimo.

Quando você usa uma técnica de validação, o Minitab calcula estatísticas separadas para os dados de treinamento e para os dados de teste. Você pode comparar a estatística para examinar o desempenho relativo da árvore nos dados de treinamento e em novos dados. Normalmente, a estatística de teste é uma medida melhor do desempenho da árvore para novos dados.

Um possível padrão é que um pequena percentual dos resíduos responda por grande parte do erro nos dados. Por exemplo, na tabela a seguir, o tamanho total do conjunto de dados é de aproximadamente 4500. Sob a perspectiva do MSE, isso indica que 1% dos dados respondem por cerca de 12% do erro. Nesse caso, os 45 casos que contribuem com a maior parte do erro para a árvore podem representar a oportunidade mais natural para melhorar a árvore. Encontrar uma maneira de melhorar os ajustes para esses casos leva a um aumento relativamente grande no desempenho geral da árvore.

Essa condição também pode indicar que você pode ter maior confiança nos nós da árvore que não têm casos com os maiores erros. Como a maior parte do erro vem de um pequeno número de casos, os ajustes para os outros casos são relativamente mais exatos.

CART® regressão do nó 17: Duração do Serviço versus Idade no Ingresso; Idade do Primeiro Uso de Drogas; Prisões em 30 dias anteriores; Dias esperando por serviço; Episódios anteriores de tratame; Anos de Educação; Outro uso estimulante; Terapia de Medicação Planejada; Condição psiquiátrica; Grávida; Gênero; Veterano; Uso de Álcool; Uso de cocaína; Uso da maconha; Uso de heroína; Outro uso de ópio; Uso de PCP; Uso de Mehtadone; Outro uso de alucinógeno; Uso de metanfetamina; Outro uso de anfetamina; Uso de benzodiazepínico; Outro uso tranquilizante; Uso de Barbituate; Outro uso sedativo; Uso inalador; Uso de medicamentos não prescri; Outro uso de drogas; Uso de drogas intravenosas; Arranjos de vida; Frequência de Abuso de Substânc; Seguro de Saúde; Estado Civil; Etnia; Fonte de Renda; Rota de Ingestion Primária de S; Atendimento de autoajuda; Fonte de Pagamento; Corrida; Status de Emprego; Fonte de referência; Substância Primária do Abuso; Diagnóstico de DSM

Por cento de estatísticas de erro devido aos maiores resíduos % de maiores Treinamento Teste resíduos Contagem % MSE % MAD % MAPE % MSE % MAD % MAPE 1,0 45 12,0662 4,4286 17,0993 11,7595 4,3601 16,9809 2,0 90 19,6105 7,9590 27,7611 19,0639 7,8242 28,0537 2,5 112 22,6611 9,5292 31,4313 22,0671 9,3775 31,8497 3,0 134 25,4267 11,0245 35,1014 24,7926 10,8576 35,4683 4,0 179 30,3473 13,8759 42,6086 29,7103 13,7003 42,7628 5,0 223 34,5866 16,4938 49,9489 33,9523 16,3116 49,8103 7,5 334 43,2672 22,4419 63,2850 43,0319 22,3750 63,0140 10,0 446 50,4797 27,8875 70,7239 50,3414 27,8406 70,3832 15,0 668 61,1200 37,1919 78,5216 61,0161 37,1327 78,1782 20,0 891 69,2319 45,3354 82,5577 69,0602 45,2227 82,2440