Variáveis importantes

O Minitab Statistical Software determina a importância de uma variável em Regressão Random Forests® com o método de permutação. O método da permutação usa os dados out-of-bag. Para uma determinada árvore j, na análise, prediga os dados out-of-bag com a árvore. Repita a predição para cada árvore da floresta. Em seguida, calcule a média das predições out-of-bag para cada linha que aparece pelo menos uma vez nos dados out-of-bag. Use as predições para calcular o quadrado médio do erro para os dados out-of-bag:
em que
TermoDescrição
valor da variável resposta para a linha i
linhas numéricas que aparecem nos dados out-of-bag sobre toda a floresta
previsão out-of-bag para a linha i

Em seguida, permute aleatoriamente os valores de uma variável xm através dos dados out-of-bag. Deixe os valores de resposta e os outros valores do preditor iguais. Em seguida, use os mesmos passos para calcular o erro quadrado médio para os dados permutados, .

A importância para a variável xm vem da diferença dos dois erros quadrados médios:

O Minitab arredonda valores menores que 10–7 para 0.

Repita esse processo para cada variável na análise. A variável com maior importância é a variável mais importante. As pontuações de importância variável relativa são dimensionados pela importância da variável mais importante:

Predições out-of-bag e de teste

Os cálculos preditos para as seguintes medidas de precisão do modelo dependem do método de validação. As predições out-of-bag vêm apenas das árvores nas quais uma linha está out-of-bag. Para uma determinada árvore j, na análise, prediga os dados out-of-bag com a árvore. Repita a predição para cada árvore da floresta. Em seguida, calcule a média das predições out-of-bag para cada linha que aparece pelo menos uma vez nos dados out-of-bag. Para a avaliação do modelo com os dados out-of-bag, a média da variável de resposta é a média em todas as linhas nos dados out-of-bag.

Para o conjunto de dados de teste, use cada árvore na floresta para prever cada valor no conjunto de dados de teste. Em seguida, a média das previsões de todas as árvores para obter a predição para o modelo. Para a avaliação do modelo com o conjunto de teste, a resposta média é a média das linhas no conjunto de teste.

R-quadrado

O cálculo de R2 usa os dados out-of-bag ou os dados de teste. As predições diferem nesses dois casos. Em geral, a fórmula para R2 tem a seguinte forma:

Raiz do quadrado médio do Erro (RMSE)

Erro quadrado médio (MSE)

Desvio absoluto médio (MAD)

Erro percentual absoluto médio (MAPE)

Notação

TermoDescrição
yi valor de resposta observado
resposta média
valor de resposta previsto para a linha
Nnúmero de linhas