Função de perda

Função de perda que o Minitab usa para criar o modelo. O Minitab usa o erro quadrado (padrão), o desvio absoluto ou a função de perda de Huber.

A função de perda do desvio absoluto tenta diminuir a influência dos pontos cujo ajuste é menos bom em comparação com a função de perda do erro menos quadrado. A função de perda de Huber apresenta um compromisso entre as outras duas funções de perda usando a função de perda do erro quadrado mínimo para resíduos absolutos menores e a função de perda do desvio absoluto mínimo para os maiores resíduos absolutos.

Critério para seleção do número ótimo de árvores

O minitab usa o R2 máximo (padrão) ou o menor desvio absoluto médio para selecionar o número ótimo de árvores.

Validação do modelo

O Minitab usa o método de validação cruzada ou usa um conjunto de teste separado para validar o modelo. Com a validação cruzada, você pode especificar as linhas para cada duplicação ou permitir uma seleção aleatória. Com um conjunto de testes separado, você pode especificar as linhas para os conjuntos de treinamento e teste ou permitir uma seleção aleatória.

Taxa de aprendizado

As taxas de aprendizado baixas pesam cada nova árvore no modelo menos do que as taxas de aprendizado mais altas e, às vezes, produzem mais árvores para o modelo. O modelo com taxa de aprendizagem baixa tem menos chance de sobreajustar o conjunto de dados de treinamento.

A taxa de aprendizagem padrão = max[0,01, 0,1 * min (1.0, N/10000). Se você usar uma taxa de aprendizado baixa, talvez seja conveniente aumentar o número máximo de árvores no modelo para que o número ótimo de árvores seja menor do que o número máximo de árvores.

Fração da subamostra

A fração da subsample apresenta a fração dos dados que a análise usa para construir cada árvore. Ajuste este parâmetro se o sobreajuste for uma preocupação.

Máximo de nós terminais por árvore ou profundidade máxima da árvore

Regressão TreeNet® combina muitas árvores CART® pequenas em um modelo poderoso. Você pode especificar o número máximo de nós terminais ou a profundidade máxima da árvore para essas árvores CART® menores.
Máximo de nós terminais por árvore
O número padrão máximo de nós terminais é 6. Embora um número máximo maior de nós terminais por árvore possa melhorar a capacidade de detectar interações, valores acima de 12 podem retardar a análise sem muito benefício para o modelo.
Profundidade máxima da árvore
A profundidade máxima da árvore padrão é 4. Se o modelo inicial ajustado não funcionar bem, considere uma profundidade máxima maior para a árvore, como 5 ou 6, e verifique se uma profundidade máxima de árvore maior melhora o modelo.

Tamanho mínimo do nó terminal

Indica o número mínimo de casos para um nó terminal. Por exemplo, se o tamanho mínimo é 3 uma divisão criar um nó com menos de 3 casos, o Minitab não realiza uma divisão.

Número de preditores selecionados para divisão de nó

Esta linha indica se a divisão do nó considera cada preditor em cada nó ou um subconjunto aleatório dos preditores. Se a divisão do nó usar um subconjunto aleatório, esta linha indica a escolha para o número de preditores a serem considerados.

Se você usar todos os preditores inicialmente, considere se deve usar um subconjunto de preditores nos modelos subsequentes para comparar o desempenho dos modelos.

Penalidade de valor faltante

Por padrão, a análise não tem uma penalidade de valor faltante e esta linha não está presente. A penalidade de valor faltante penaliza uma variável preditora com base na proporção de valores faltantes. Uma variável com uma penalidade alta é menos propensa a se tornar o divisor de um nó.

Penalidade de categoria de nível superior

Por padrão, a análise não tem uma penalidade de categoria de alto nível e esta linha não está presente. A penalidade de categoria de nível superior penaliza a variável com base no número de níveis categóricos em relação ao tamanho do nó para cada nó. Assim, um competidor com muitos níveis é menos propenso a se tornar o divisor de um nó.

Pesos

Indica a coluna usada para ponderar a resposta.

Linhas usadas

O número de observações de resposta presentes na análise que ajusta e avalia o modelo.

Linhas não utilizadas

O número de observações de resposta faltantes. Isso também inclui valores faltantes ou zeros na coluna de peso.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política