Considerações de dados para Classificação CART®

Para garantir que seus resultados sejam válidos, considere as seguintes diretrizes quando coletar dados, realizar a análise e interpretar seus resultados.

A variável resposta (alvo) deve ser categórica
As variáveis categóricas contêm um número finito e contável de categorias ou grupos distintos. Os dados categóricos podem ou não ter uma ordem lógica. Por exemplo, as variáveis categóricas incluem gênero, tipo material e método de pagamento.
  • Se sua variável resposta tiver duas categorias, como passar e falhar, então a resposta é binária.
  • Se sua variável resposta contém três ou mais categorias, então a resposta é multinomial.

Os dados da variável resposta devem ser valores de texto ou valores numéricos. Não são permitidos valores de data/hora.

Se sua variável resposta for contínua, use Regressão CART®.

As variáveis preditoras podem ser contínuas ou categóricas
Você pode usar uma combinação de preditores contínuos ou categóricos; no entanto, os comprimentos da coluna para cada preditor devem ser iguais aos da coluna de resposta. Não são permitidos valores faltantes.
  • Todos os preditores contínuos devem ser numéricos.
  • Os preditores categóricos podem se valores de texto ou numéricos.
É recomendável usar um conjunto de testes quando o número de casos for maior que 5000

Por padrão, o Minitab usa validação cruzada quando o número de casos é menor ou igual a 5000. Quando o número de casos é maior que 5000, o Minitab usa um conjunto de testes. A validação com um conjunto de dados de treinamento e um conjunto de dados de teste é útil quando o conjunto de dados é grande. Para obter mais informações sobre as configurações para técnicas de validação em Classificação CART®, acesse Especifique o método de validação para Classificação CART®.