Para obter mais informações sobre os métodos de validação do modelo e parâmetros de complexidade, consulte Breiman, Friedman, Olshen e Stone (1984)1.
A estatística do sumário do modelo, como a área sob a curva ROC, tende a ser otimista quando você calcula com os mesmos dados usados para ajustar um modelo. Os métodos de validação do modelo deixam uma parte dos dados fora do processo de ajuste do modelo e calculam a estatística que avalia o desempenho do modelo nos dados omitidos. As técnicas de validação do modelo fornecem uma estimativa melhor de como os modelos se comportam em novos dados. O custo de classificação errada dos dados omitidos é o critério para a seleção da árvore ótima. O Minitab oferece dois métodos de validação para técnicas de análise preditivas: validação cruzada de K dobras e validação com um conjunto de dados de teste separados.
A validação cruzada de K dobras é o método padrão no Minitab quando os dados têm 5.000 casos ou menos. Com este método, o Minitab particiona os dados em K subconjuntos. Os subconjuntos são chamados de dobras. A validação cruzada de K dobras tende a funcionar bem com conjuntos de dados relativamente pequenos em comparação com conjuntos de dados que funcionam bem com um conjunto de dados de teste. Como o processo se repete K vezes, a validação cruzada geralmente é mais lenta do que a validação com um conjunto de dados de teste.
Para concluir a validação cruzada de K dobras, o Minitab produz sequências de 1 + k de subárvores. Uma sequência de subárvores, a sequência mestra, usa todo o conjunto de dados de treinamento. As outras K sequências são para as K dobras. Para cada dobras, a sequência de subárvores utiliza (k – 1)/k dos casos no conjunto de dados de treinamento.
Cada sequência consiste em uma sequência finita de subárvores aninhadas. Cada dobra tem uma sequência finita de parâmetros de complexidade αd ≤ α ≤ αd + 1 que correspondem à maior árvore e às subávoras na sequência. A sequência destinada ao conjunto de dados completo tem parâmetros de complexidade βd ≤ β ≤ βd + 1em que d = 0, 1, ... D, em que β0 é o parâmetro para a maior árvore da sequência.
Para qualquer subárvore na sequência mestra, assuma que os parâmetros de complexidade correspondentes são βd e βd + 1. Seja . Em seguida, o Minitab usa este alfa para encontrar as K subárvores correspondentes das K dobras. Para cada dobra, calcule o custo de classificação errada para a subárvore usando a fórmula em Métodos e fórmulas para o sumário do modelo em Classificação CART®. O custo médio de classificação errada entre as K dobras é o custo estimado de classificação errada para a subárvore na sequência mestra. Repita o cálculo do custo estimado de classificação errada para cada subárvore na sequência mestra. O procedimento identifica a subárvore com o custo médio mínimo de classificação. A árvore com o custo mínimo de classificação errada ou a menor árvore com um custo de classificação errada dentro de vários erros padrão do custo de classificação errada torna-se a árvore ótima nos resultados.
Na validação com um conjunto de dados de teste, uma parte dos dados é reservada para validação. Esta parte dos dados é o conjunto de dados de treinamento. Primeiro, o Minitab ajusta todas as árvores com o conjunto de dados de treinamento. Em seguida, o Minitab calcula o quadrado médio do erro ou o desvio absoluto para o conjunto de dados de teste de cada árvore. A árvore com o valor ótimo do critério para o conjunto de dados de teste é a árvore ótima.
Sem qualquer validação, o Minitab usa todo o conjunto de dados para aumentar a sequência de subárvores. A subárvore com mais nós terminais tem o custo mínimo de classificação errada e é a árvore ótima.