Tabela de métodos para Ajuste de modelo e Descubrir preditores-chave com Regressão TreeNet^®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Neste tópico

Função de perda
Validação do modelo
Taxa de aprendizado
Fração da subamostra
Máximo de nós terminais por árvore ou profundidade máxima da árvore
Tamanho mínimo do nó terminal

Número de preditores selecionados para divisão de nó
Penalidade de valor faltante
Penalidade de categoria de nível superior
Pesos
Linhas usadas
Linhas não utilizadas

Função de perda

Função de perda que o Minitab usa para criar o modelo. O Minitab usa o erro quadrado (padrão), o desvio absoluto ou a função de perda de Huber.

A função de perda do desvio absoluto tenta diminuir a influência dos pontos cujo ajuste é menos bom em comparação com a função de perda do erro menos quadrado. A função de perda de Huber apresenta um compromisso entre as outras duas funções de perda usando a função de perda do erro quadrado mínimo para resíduos absolutos menores e a função de perda do desvio absoluto mínimo para os maiores resíduos absolutos.

Validação do modelo

O Minitab usa o método de validação cruzada ou usa um conjunto de teste separado para validar o modelo. Com a validação cruzada, você pode especificar as linhas para cada duplicação ou permitir uma seleção aleatória. Com um conjunto de testes separado, você pode especificar as linhas para os conjuntos de treinamento e teste ou permitir uma seleção aleatória.

Taxa de aprendizado

As taxas de aprendizado baixas pesam cada nova árvore no modelo menos do que as taxas de aprendizado mais altas e, às vezes, produzem mais árvores para o modelo. O modelo com taxa de aprendizagem baixa tem menos chance de sobreajustar o conjunto de dados de treinamento.

A taxa de aprendizagem padrão = max[0,01, 0,1 * min (1.0, N/10000). Se você usar uma taxa de aprendizado baixa, talvez seja conveniente aumentar o número máximo de árvores no modelo para que o número ótimo de árvores seja menor do que o número máximo de árvores.

Fração da subamostra

A fração da subsample apresenta a fração dos dados que a análise usa para construir cada árvore. Ajuste este parâmetro se o sobreajuste for uma preocupação.

Máximo de nós terminais por árvore ou profundidade máxima da árvore

Regressão TreeNet^® combina muitas árvores CART® pequenas em um modelo poderoso. Você pode especificar o número máximo de nós terminais ou a profundidade máxima da árvore para essas árvores CART® menores.

Máximo de nós terminais por árvore: O número padrão máximo de nós terminais é 6. Embora um número máximo maior de nós terminais por árvore possa melhorar a capacidade de detectar interações, valores acima de 12 podem retardar a análise sem muito benefício para o modelo.
Profundidade máxima da árvore: A profundidade máxima da árvore padrão é 4. Se o modelo inicial ajustado não funcionar bem, considere uma profundidade máxima maior para a árvore, como 5 ou 6, e verifique se uma profundidade máxima de árvore maior melhora o modelo.

Tamanho mínimo do nó terminal

Indica o número mínimo de casos para um nó terminal. Por exemplo, se o tamanho mínimo é 3 uma divisão criar um nó com menos de 3 casos, o Minitab não realiza uma divisão.

Número de preditores selecionados para divisão de nó

Esta linha indica se a divisão do nó considera cada preditor em cada nó ou um subconjunto aleatório dos preditores. Se a divisão do nó usar um subconjunto aleatório, esta linha indica a escolha para o número de preditores a serem considerados.

Se você usar todos os preditores inicialmente, considere se deve usar um subconjunto de preditores nos modelos subsequentes para comparar o desempenho dos modelos.

Penalidade de valor faltante

Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza uma variável preditora com base na proporção de valores faltantes. Uma variável com uma penalidade alta é menos propensa a se tornar o divisor de um nó.

Penalidade de categoria de nível superior

Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza a variável com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis é menos propenso a se tornar o divisor de um nó.

Pesos

Indica a coluna usada para ponderar a resposta.

Linhas usadas

O número de observações de resposta presentes na análise que ajusta e avalia o modelo.

Linhas não utilizadas

O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.

Tabela de métodos para Ajuste de modelo e Descubrir preditores-chave com Regressão TreeNet®