Critério para seleção do número ótimo de árvores

O Minitab usa o log-verossimilhança máximo (padrão), a área máxima sob a curva ROC ou a taxa mínima de classificação errada para selecionar o número ótimo de árvores.

Validação do modelo

O Minitab usa o método de validação cruzada ou usa um conjunto de teste separado para validar o modelo. Com a validação cruzada, você pode especificar as linhas para cada dobra ou permitir uma seleção aleatória. Com um conjunto de testes separado, você pode especificar as linhas para os conjuntos de treinamento e teste ou permitir uma seleção aleatória.

Taxa de aprendizado

As taxas de aprendizado baixas pesam cada nova árvore no modelo menos do que as taxas de aprendizado mais altas e, às vezes, produzem mais árvores para o modelo. O modelo com taxa de aprendizagem baixa tem menos chance de sobreajustar o conjunto de dados de treinamento.

A taxa de aprendizagem padrão = max[0,01, 0,1 * min (1.0, N/10000). Se você usar uma taxa de aprendizado baixa, talvez seja conveniente aumentar o número máximo de árvores no modelo para que o número ótimo de árvores seja menor do que o número máximo de árvores.

Método de seleção de subamostra

O método de seleção de subamostra exibe a fração dos dados que a análise usa para construir cada árvore. Ajuste este parâmetro se o sobreajuste for uma preocupação. Se a análise especificar uma fração separada para cada classe em uma variável resposta binária, o método mostrará ambos os valores. A opção de especificar a fração para cada nível de resposta garante que as árvores contenham uma quantidade mínima de cada valor de resposta quando um dos valores é raro.

Máximo de nós terminais por árvore ou profundidade máxima da árvore

Classificação TreeNet® combina muitas árvores CART® pequenas em um modelo poderoso. Você pode especificar o número máximo de nós terminais ou a profundidade máxima da árvore para essas árvores CART® menores.
Máximo de nós terminais por árvore
O número padrão máximo de nós terminais é 6. Embora um número máximo maior de nós terminais por árvore possa melhorar a capacidade de detectar interações, valores acima de 12 podem retardar a análise sem muito benefício para o modelo.
Profundidade máxima da árvore
A profundidade máxima da árvore padrão é 4. Se o modelo inicial ajustado não funcionar bem, considere uma profundidade máxima maior para a árvore, como 5 ou 6, e verifique se uma profundidade máxima de árvore maior melhora o modelo.

Tamanho mínimo do nó terminal

Indica o número mínimo de casos para um nó terminal. Por exemplo, se o tamanho mínimo é 3 uma divisão criar um nó com menos de 3 casos, o Minitab não realiza uma divisão.

Número de preditores selecionados para divisão de nó

Esta linha indica se a divisão do nó considera cada preditor em cada nó ou um subconjunto aleatório dos preditores. Se a divisão do nó usar um subconjunto aleatório, esta linha indica a escolha para o número de preditores a serem considerados.

Se você usar todos os preditores inicialmente, considere se deve usar um subconjunto de preditores nos modelos subsequentes para comparar o desempenho dos modelos.

Penalidade de valor faltante

Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza uma variável preditora com base na proporção de valores faltantes. Uma variável com uma penalidade alta é menos propensa a se tornar o divisor de um nó.

Penalidade de categoria de nível superior

Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza a variável com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis é menos propenso a se tornar o divisor de um nó.

Pesos

Indica a coluna usada para ponderar a resposta.

Linhas usadas

O número de observações de resposta presentes na análise que ajusta e avalia o modelo.

Linhas não utilizadas

O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.