Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
O Minitab usa o log-verossimilhança máximo (padrão), a área máxima sob a curva ROC ou a taxa mínima de classificação errada para selecionar o número ótimo de árvores.
O Minitab usa o método de validação cruzada ou usa um conjunto de teste separado para validar o modelo. Com a validação cruzada, você pode especificar as linhas para cada dobra ou permitir uma seleção aleatória. Com um conjunto de testes separado, você pode especificar as linhas para os conjuntos de treinamento e teste ou permitir uma seleção aleatória.
As taxas de aprendizado baixas pesam cada nova árvore no modelo menos do que as taxas de aprendizado mais altas e, às vezes, produzem mais árvores para o modelo. O modelo com taxa de aprendizagem baixa tem menos chance de sobreajustar o conjunto de dados de treinamento.
A taxa de aprendizagem padrão = max[0,01, 0,1 * min (1.0, N/10000). Se você usar uma taxa de aprendizado baixa, talvez seja conveniente aumentar o número máximo de árvores no modelo para que o número ótimo de árvores seja menor do que o número máximo de árvores.
O método de seleção de subamostra exibe a fração dos dados que a análise usa para construir cada árvore. Ajuste este parâmetro se o sobreajuste for uma preocupação. Se a análise especificar uma fração separada para cada classe em uma variável resposta binária, o método mostrará ambos os valores. A opção de especificar a fração para cada nível de resposta garante que as árvores contenham uma quantidade mínima de cada valor de resposta quando um dos valores é raro.
Indica o número mínimo de casos para um nó terminal. Por exemplo, se o tamanho mínimo é 3 uma divisão criar um nó com menos de 3 casos, o Minitab não realiza uma divisão.
Esta linha indica se a divisão do nó considera cada preditor em cada nó ou um subconjunto aleatório dos preditores. Se a divisão do nó usar um subconjunto aleatório, esta linha indica a escolha para o número de preditores a serem considerados.
Se você usar todos os preditores inicialmente, considere se deve usar um subconjunto de preditores nos modelos subsequentes para comparar o desempenho dos modelos.
Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza uma variável preditora com base na proporção de valores faltantes. Uma variável com uma penalidade alta é menos propensa a se tornar o divisor de um nó.
Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza a variável com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis é menos propenso a se tornar o divisor de um nó.
Indica a coluna usada para ponderar a resposta.
O número de observações de resposta presentes na análise que ajusta e avalia o modelo.
O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.