O CART sempre utiliza a média de dois valores adjacentes para calcular c. Uma variável contínua com valores N distintos gera até n-1 divisões potenciais do nó pai. Em uma análise, o número real de divisões potenciais é menor quando o tamanho mínimo do nó é maior que 1.
Para uma variável categórica X com valores distintos {c1, c2, c3, ..., ck}, uma divisão é um subconjunto de níveis que são enviados para o nó esquerdo. Uma variável categórica com k níveis gera até 2k – 1-1 divisões.
Para uma possível divisão durante a fase de crescimento da árvore, os critérios de melhoria são as os Mínimos Quadrados (LS) ou o Menor Desvio Absoluto (LAD). O Minitab adiciona a divisão com a maior melhoria para a árvore. Se a melhoria para dois preditores for a mesma, o algoritmo requer uma seleção para prosseguir. A seleção utiliza um esquema determinístico de desempate que envolve a posição dos preditores na planilha, o tipo de preditor e o número de aulas em um preditor categórico.
O Minitab calcula melhorias apenas a partir dos dados de treinamento quando a análise inclui um método de validação do modelo. Use as seguintes fórmulas para calcular a melhoria para cada critério.
em que
em que
Termo | Descrição |
---|---|
SSE | soma de erros quadrados |
registro io no nó | |
SAE | soma dos erros absolutos |
mediana da resposta para o nó |
Após a identificação de uma divisão ótima, o Minitab procura por divisores substitutos entre as outros divisores potenciais. Um divisor substituto se assemelha à ao divisor ótimo em que os registros vão para os nós esquerdo e direito. A medida de semelhança é a associação.
Uma associação de 1 indica que o divisor substituto replica a divisão ótima. Uma associação de 0 indica que a divisão envia todos os registros para o nó com mais registros na divisão ótima. Divisões com associação positiva são substitutos potenciais. As melhorias proporcionadas pelos divisores substitutos estão nos cálculos de importância variável.
Quando os novos dados incluem valores faltantes para qualquer um dos preditores que formam divisões, o Minitab usa o melhor preditor substituto não faltante em vez do preditor que aparece na árvore.