Especifique o método de validação para Classificação CART®

Módulo de análise preditiva > Validação de classificação > CART®

Escolha o método de validação para testar seu modelo. Normalmente, com amostras menores, o método de validação cruzada de K dobras é apropriado. Com amostras maiores, você pode selecionar uma fração de casos para usar no treinamento e nos testes.

Validação cruzada de K dobras

Conclua os passos a seguir para usar o método de validação cruzada de K dobras para validar a amostra de teste. O método de validação cruzada de K dobras é o método padrão quando o número de linhas é ≤ 5000.

  1. Na lista suspensa, selecione Validação cruzada de K dobras.
  2. Escolha um dos procedimentos a seguir para especificar se a atribuição de dobras será feita aleatoriamente ou com uma coluna de ID.
    • Atribuir aleatoriamente linhas de cada dobras: Selecione esta opção para fazer com que o Minitab selecione aleatoriamente as linhas para cada dobra. Você pode especificar o número de dobras. O valor padrão de 10 funciona bem na maioria dos casos. Usar um valor menor de K pode introduzir um viés ainda maior; contudo, valores maiores de K podem introduzir mais variabilidade. Também é possível definir uma base para o gerador de números aleatórios.
    • Atribuir linhas de cada duplicação por coluna de ID: Selecione esta opção para escolher as linhas a serem incluídas em cada dobra. Em Coluna de IDs, digite a coluna que contém as linhas para cada duplicação.
  3. (Opcional) Verifique Armazenar a coluna de IDs para a validação cruzada de K dobras para salvar a coluna ID.

Validação com um conjunto de testes

Conclua os passos a seguir para especificar uma fração dos dados a serem usados para treinamento e teste. O método de validação do conjunto de teste é o método padrão quando o número de linhas é de > 5000. Em muitos casos, 70% dos dados são utilizados para treinamento, e 30% dos dados são usados para testes.

  1. Na lista suspensa, selecione Validação com um conjunto de testes.
  2. Selecione uma das opções a seguir para determinar se selecionará uma fração de linhas aleatoriamente ou com uma coluna de ID.
    • Selecionar aleatoriamente uma fração de linhas como um conjunto de teste: Selecione esta opção para fazer com que o Minitab selecione aleatoriamente uma fração de linhas para testes. Você pode especificar a fração. O valor padrão de 0,3 funciona bem na maioria dos casos. Para conjuntos de dados maiores, é recomendável aumentar a fração de dados usados para testes. Também é possível definir uma base para o gerador de números aleatórios.
    • Definir a divisão de treinamento/teste por coluna IDs: Selecione esta opção para escolher as linhas a serem incluídas na amostra de teste. Em Coluna de IDs, digite a coluna que indica quais linhas devem ser usadas para a amostra de teste. A coluna ID deve conter apenas 2 valores. Em Nível para conjunto de teste, selecione qual nível deve ser usado como amostra de teste.
  3. (Opcional) Verifique Armazenar a coluna de IDs para a divisão de treinamento/teste para salvar a coluna ID.

Nenhum

Se Nenhum for selecionado, nenhuma validação adicional é realizada.