Seleção da árvore ótima em Regressão CART®

Você pode especificar que a árvore ótima é a árvore com o erro mínimo quadrado ou a árvore com o desvio absoluto mínimo. A determinação da árvore com o melhor valor do critério escolhido depende do método de validação.

Para obter mais informações sobre os métodos de validação do modelo e parâmetros de complexidade, consulte Breiman, Friedman, Olshen e Stone (1984)1.

Métodos de validação do modelo

A estatística do sumário do modelo, como R2, tende a ser otimista quando você calcula com os mesmos dados usados para ajustar um modelo. Os métodos de validação do modelo deixam uma parte dos dados fora do processo de ajuste do modelo e calculam a estatística que avalia o desempenho do modelo nos dados omitidos. As técnicas de validação do modelo fornecem uma estimativa melhor de como os modelos se comportam em novos dados. O Minitab oferece dois métodos de validação para técnicas de análise preditivas: validação cruzada de K dobras e validação com um conjunto de dados de teste separados.

A árvore ótima com validação cruzada de K dobras

A validação cruzada de K dobras é o método padrão no Minitab quando os dados têm 5.000 casos ou menos. Com este método, o Minitab particiona os dados em K subconjuntos. Os subconjuntos são chamados de dobras. A validação cruzada de K dobras tende a funcionar bem com conjuntos de dados relativamente pequenos em comparação com conjuntos de dados que funcionam bem com um conjunto de dados de teste. Como o processo se repete K vezes, a validação cruzada geralmente é mais lenta do que a validação com um conjunto de dados de teste.

Procedimento de validação cruzada de K dobras

Para concluir a validação cruzada de K dobras, o Minitab produz sequências de 1 + k de subárvores. Uma sequência de subárvores, a sequência mestra, usa todo o conjunto de dados de treinamento. As outras K sequências são para as K dobras. Para cada dobras, a sequência de subárvores utiliza (k – 1)/k dos casos no conjunto de dados de treinamento.

Cada sequência consiste em uma sequência finita de subárvores aninhadas. Cada dobra tem uma sequência finita de parâmetros de complexidade αdααd + 1 que correspondem à maior árvore e às subávoras na sequência. A sequência destinada ao conjunto de dados completo tem parâmetros de complexidade βdββd + 1em que d = 0, 1, ... D, em que β0 é o parâmetro para a maior árvore da sequência.

Para qualquer subárvore na sequência mestra, assuma que os parâmetros de complexidade correspondentes são βd e βd + 1. Seja . Em seguida, o Minitab usa este alfa para encontrar as K subárvores correspondentes das K dobras. Para cada dobra, calcule o critério escolhido para a subárvore usando a fórmula em Métodos e fórmulas para o sumário do modelo em Regressão CART®. A média do critério entre as k dobras é o valor estimado para a subárvore na sequência principal. Repita o cálculo do critério para cada subárvore na sequência principal. A subárvore com o valor médio mínimo é a árvore ótima.

A árvore ótima com um conjunto de dados de teste separados

Na validação com um conjunto de dados de teste, uma parte dos dados é reservada para validação. Esta parte dos dados é o conjunto de dados de treinamento. Primeiro, o Minitab ajusta todas as árvores para o conjunto de dados de treinamento. Em seguida, o Minitab calcula o quadrado médio do erro ou o desvio absoluto para o conjunto de dados de teste de cada árvore. A árvore com o valor ótimo do critério para o conjunto de dados de teste é a árvore ótima.

A árvore ótima sem validação

Sem qualquer validação, o Minitab usa todo o conjunto de dados para aumentar a sequência de subárvores. A subárvore com mais nós terminais tem o menor quadrado médio do erro ou o menor desvio absoluto e é a árvore ótima.

1 Breiman, Friedman, Olshen e Stone. (1984). Classification and Regression Trees. Boca Raton, Florida: Chapman e Hall/CRC.