Seleção da árvore ótima em Classificação CART®

Dependendo da sua seleção, a árvore ótima é a árvore que produz o custo mínimo de classificação errada ou a menor árvore com um custo de classificação errada dentro de vários erros padrão do custo mínimo de classificação errada. A determinação da árvore ótima depende do método de validação.

Para obter mais informações sobre os métodos de validação do modelo e parâmetros de complexidade, consulte Breiman, Friedman, Olshen e Stone (1984)1.

Métodos de validação do modelo

A estatística do sumário do modelo, como a área sob a curva ROC, tende a ser otimista quando você calcula com os mesmos dados usados para ajustar um modelo. Os métodos de validação do modelo deixam uma parte dos dados fora do processo de ajuste do modelo e calculam a estatística que avalia o desempenho do modelo nos dados omitidos. As técnicas de validação do modelo fornecem uma estimativa melhor de como os modelos se comportam em novos dados. O custo de classificação errada dos dados omitidos é o critério para a seleção da árvore ótima. O Minitab oferece dois métodos de validação para técnicas de análise preditivas: validação cruzada de K duplicações e validação com um conjunto de dados de teste separados.

A árvore ótima com validação cruzada de K duplicações

A validação cruzada de K duplicações é o método padrão no Minitab quando os dados têm 5.000 casos ou menos. Com este método, o Minitab particiona os dados em K subconjuntos. Os subconjuntos são chamados de duplicações. A validação cruzada de K duplicações tende a funcionar bem com conjuntos de dados relativamente pequenos em comparação com conjuntos de dados que funcionam bem com um conjunto de dados de teste. Como o processo se repete K vezes, a validação cruzada geralmente é mais lenta do que a validação com um conjunto de dados de teste.

Procedimento de validação cruzada de K duplicações

Para concluir a validação cruzada de K duplicações, o Minitab produz sequências de 1 + k de subárvores. Uma sequência de subárvores, a sequência mestra, usa todo o conjunto de dados de treinamento. As outras K sequências são para as K duplicações. Para cada duplicações, a sequência de subárvores utiliza (k – 1)/k dos casos no conjunto de dados de treinamento.

Cada sequência consiste em uma sequência finita de subárvores aninhadas. Cada dobra tem uma sequência finita de parâmetros de complexidade αdααd + 1 que correspondem à maior árvore e às subávoras na sequência. A sequência destinada ao conjunto de dados completo tem parâmetros de complexidade βdββd + 1em que d = 0, 1, ... D, em que β0 é o parâmetro para a maior árvore da sequência.

Para qualquer subárvore na sequência mestra, assuma que os parâmetros de complexidade correspondentes são βd e βd + 1. Seja . Em seguida, o Minitab usa este alfa para encontrar as K subárvores correspondentes das K duplicações. Para cada duplicação, calcule o custo de classificação errada para a subárvore usando a fórmula em Métodos e fórmulas para o sumário do modelo em Classificação CART®. O custo médio de classificação errada entre as K duplicações é o custo estimado de classificação errada para a subárvore na sequência mestra. Repita o cálculo do custo estimado de classificação errada para cada subárvore na sequência mestra. O procedimento identifica a subárvore com o custo médio mínimo de classificação. A árvore com o custo mínimo de classificação errada ou a menor árvore com um custo de classificação errada dentro de vários erros padrão do custo de classificação errada torna-se a árvore ótima nos resultados.

A árvore ótima com um conjunto de dados de teste separados

Na validação com um conjunto de dados de teste, uma parte dos dados é reservada para validação. Esta parte dos dados é o conjunto de dados de treinamento. Primeiro, o Minitab ajusta todas as árvores com o conjunto de dados de treinamento. Em seguida, o Minitab calcula o quadrado médio do erro ou o desvio absoluto para o conjunto de dados de teste de cada árvore. A árvore com o valor ótimo do critério para o conjunto de dados de teste é a árvore ótima.

A árvore ótima sem validação

Sem qualquer validação, o Minitab usa todo o conjunto de dados para aumentar a sequência de subárvores. A subárvore com mais nós terminais tem o custo mínimo de classificação errada e é a árvore ótima.

1 Breiman, Friedman, Olshen e Stone. (1984). Classification and Regression Trees. Boca Raton, Florida: Chapman e Hall/CRC.
Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política