Tabela de métodos para Regressão CART®

Encontre definições e interpretações para cada estatística na tabela Método.

Divisão de nó

O Minitab pode usar o método do erro mínimo quadrado ou do mínimo desvio absoluto como critério para dividir os nós. O método do erro mínimo quadrado minimiza a soma dos erros quadrados. O método do mínimo desvio absoluto minimiza a soma de valores absolutos dos erros.

Árvore ótima

O Minitab inicialmente apresenta resultados tanto para a árvore ótima quanto para a menor árvore que tenha um valo der critério dentro de uma série de erros padrão do valor de critério da árvore ótima. Por padrão, os resultados são para a menor árvore com um valor R2 dentro de 1 erro padrão do valor máximo R2 ou da menor árvore com um valor de desvio absoluto dentro de 1 erro padrão do valor mínimo, dependendo da escolha para o Método de divisão de nós.

Interpretação

Para muitos conjuntos de dados, inicialmente, o critério melhora à medida que o número de nós terminais aumenta. O critério então atinge um valor ótimo e piora depois. Se o valor ótimo for para uma árvore em que adicionar um nó faz pouca diferença no valor do critério, você pode considerar se deve usar uma árvore menor que funcione quase tão bem quanto a árvore ótima. As árvores menores são mais fáceis de serem interpretadas.

Validação do modelo

O Minitab pode validar o desempenho da árvore com um conjunto de dados de teste ou com a validação cruzada de K dobras. Você também pode optar por não validar o desempenho da árvore. Quando a análise utiliza um conjunto de dados de teste, este item mostra as proporções-alvo para os conjuntos de dados de treinamento e teste.

Interpretação

Por padrão, a Minitab usa a validação cruzada de K dobras para validar o desempenho da árvore para conjuntos de dados com 5.000 casos ou menos. Para conjuntos de dados com mais de 5.000 casos, o Minitab usa um conjunto de dados de teste. Quando a análise utiliza um método de validação, o critério para a seleção da árvore ótima é do método de validação. O uso do método de validação para selecionar a árvore ótima impede que a árvore seja superajustada aos dados disponíveis e apresenta uma descrição mais realista do desempenho da árvore em novos dados.

Penalidade de valor faltante

Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza um competidor com base na proporção de valores faltantes para cada nó. Assim, um competidor com muitos valores faltantes em um nó apresenta menor probabilidade de ter uma função de divisor principal.

Penalidade de categoria de nível superior

Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza o competidor com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis em um nó apresenta menor probabilidade de ter uma função de divisor principal.

Pesos

Indica a coluna usada para ponderar a resposta.

Linhas usadas

Devido à maneira como as análises para as análises preditivas lidam com dados faltantes para os preditores, o número de linhas utilizadas é muitas vezes do mesmo tamanho do conjunto de dados completo. Alguns dados podem ser inválidos e excluídos da análise. Por exemplo, a análise exclui linhas com valores de resposta faltantes, pesos faltantes, pesos de 0 ou pesos negativos.

Linhas não utilizadas

O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.