Tabela de métodos para Classificação CART®

Encontre definições e orientações de interpretação para a tabela Método.

Probabilidades a priori

Uma probabilidade a priori é a probabilidade de uma observação cair em um determinado grupo antes de os dados serem coletados. Por exemplo, se você está classificando os compradores de um carro específico, talvez já saiba que 60% dos compradores são do sexo masculino e 40% são do sexo feminino.

Use probabilidades a priori para aumentar a exatidão de classificação para determinadas classes. A CART toma diferentes decisões internas balanceadas com base nas probabilidades a priori. Aumentar a probabilidade de uma classe e diminuir a probabilidade de outra ajuda a balancear as taxas de classificação para as diferentes classes. Por exemplo, aumentar a probabilidade de evento e diminuir a probabilidade de não evento pode melhorar a taxa de falsos positivos, mas pode piorar a taxa de falsos negativos.

Aumentar a probabilidade de evento diminuirá o limite do nó para a atribuição em classe para o evento. Assim, os nós com frações mais baixas da classe de eventos são classificados como o evento. As probabilidades a priori são as que exercem o impacto mais forte sobre o desenvolvimento de toda a árvore durante o estágio de crescimento de árvores e fornecem meios altamente eficientes para mudar o modelo final.

Interpretação

O mesmo para todas as classes
Por exemplo, com 4 classes, cada probabilidade de classe é 0,25.
Correspondem ás frequências totais da amostra
Por exemplo, a primeira classe pode conter 50% das frequências, a segunda classe pode conter 30% das frequências, e a última classe pode conter 20% das frequências. Assim, as probabilidades a priori são 0,50, 0,30 e 0,20.
Especificadas pelo usuário
As probabilidades a priori são baseadas em seu julgamento e podem ser alteradas para equilibrar as taxas de classificação errada. A soma das probabilidades devem ser 1.

Divisão de nó

O Minitab fornece os seguintes métodos de divisão do nó:
  • Gini
  • Entropia
  • Probabilidade de classe
  • Critério de Twoing — disponível com uma resposta multinomial. O método do critério de Twoing é igual ao método Gini com uma resposta binária.

Interpretação

Use o método de divisão para encontrar a árvore que melhor ajusta seus dados. Certos métodos de divisão podem ser melhores do que outros, dependendo de seus dados específicos. Compare os resultados de vários métodos de divisão para determinar a melhor opção para sua aplicação.

Árvore ótima

O Minitab usa o custo mínimo da classificação errada para determinar a árvore ótima, ou também é possível especificar uma amplitude de erro padrão em torno do custo de classificação errada para expandir a seleção da árvore ótima.
Custo mínimo de classificação errada
O Minitab usa o custo mínimo relativo para selecionar a árvore ótima.
Dentro de X erros padrão do custo mínimo de classificação errada
O Minitab identifica as árvores com custos de classificação errada que se enquadram na amplitude de erro padrão que você especifica e seleciona a árvore com o menor número de nós terminais dentro dessa amplitude como a árvore ótima.

Validação do modelo

O Minitab usa o método de validação cruzada ou usa um conjunto de teste separado para validar o modelo. Com a validação cruzada, você pode especificar as linhas para cada dobra ou permitir uma seleção aleatória. Com um conjunto de testes separado, você pode especificar as linhas para os conjuntos de treinamento e teste ou permitir uma seleção aleatória.

Penalidade de valor faltante

Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza um competidor com base na proporção de valores faltantes para cada nó. Assim, um competidor com muitos valores faltantes em um nó apresenta menor probabilidade de ter uma função de divisor principal.

Penalidade de categoria de nível superior

Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza o competidor com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis em um nó apresenta menor probabilidade de ter uma função de divisor principal.

Pesos

Indica a coluna usada para ponderar a resposta.

Linhas usadas

O número de observações de resposta usadas na árvore.

Linhas não utilizadas

O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.