Métodos de divisão de nós em Regressão CART®

Uma árvore de regressão resulta de um particionamento recursivo binário do conjunto de dados de treinamento. Qualquer nó de pai do conjunto de dados de treinamento pode se dividir em dois nós filhos mutuamente exclusivos de um número finito de maneiras, o que depende dos valores dos dados no nó. Para uma variável contínua, X, e um valor c, uma divisão envia todos os registros com valores de X ≤ c ao nó esquerdo e os registros restantes para o nó direito.

O CART sempre utiliza a média de dois valores adjacentes para calcular c. Uma variável contínua com valores N distintos gera até n-1 divisões potenciais do nó pai. Em uma análise, o número real de divisões potenciais é menor quando o tamanho mínimo do nó é maior que 1.

Para uma variável categórica X com valores distintos {c1, c2, c3, ..., ck}, uma divisão é um subconjunto de níveis que são enviados para o nó esquerdo. Uma variável categórica com k níveis gera até 2k – 1-1 divisões.

Para uma possível divisão durante a fase de crescimento da árvore, os critérios de melhoria são as os Mínimos Quadrados (LS) ou o Menor Desvio Absoluto (LAD). O Minitab adiciona a divisão com a maior melhoria para a árvore. Se a melhoria para dois preditores for a mesma, o algoritmo requer uma seleção para prosseguir. A seleção utiliza um esquema determinístico de desempate que envolve a posição dos preditores na planilha, o tipo de preditor e o número de aulas em um preditor categórico.

O Minitab calcula melhorias apenas a partir dos dados de treinamento quando a análise inclui um método de validação do modelo. Use as seguintes fórmulas para calcular a melhoria para cada critério.

Mínimos Quadrados (LS)

em que

Desvio Absoluto Mínimo (LAD)

em que

Notação

TermoDescrição
SSEsoma de erros quadrados
registro io no nó
SAEsoma dos erros absolutos
mediana da resposta para o nó

divisores substitutos

Após a identificação de uma divisão ótima, o Minitab procura por divisores substitutos entre as outros divisores potenciais. Um divisor substituto se assemelha à ao divisor ótimo em que os registros vão para os nós esquerdo e direito. A medida de semelhança é a associação.

Uma associação de 1 indica que o divisor substituto replica a divisão ótima. Uma associação de 0 indica que a divisão envia todos os registros para o nó com mais registros na divisão ótima. Divisões com associação positiva são substitutos potenciais. As melhorias proporcionadas pelos divisores substitutos estão nos cálculos de importância variável.

Quando os novos dados incluem valores faltantes para qualquer um dos preditores que formam divisões, o Minitab usa o melhor preditor substituto não faltante em vez do preditor que aparece na árvore.