Variáveis importantes

O Minitab Statistical Software determina a importância de uma variável em Regressão Random Forests® com o método de permutação. O método da permutação usa os dados fora da sacola. Para uma determinada árvore j, na análise, prediga os dados fora da sacola com a árvore. Repita a predição para cada árvore da floresta. Em seguida, calcule a média das predições fora da sacola para cada linha que aparece pelo menos uma vez nos dados fora da sacola. Use as predições para calcular o quadrado médio do erro para os dados fora da sacola:
em que
TermoDescrição
valor da variável resposta para a linha i
linhas numéricas que aparecem nos dados fora da sacola sobre toda a floresta
previsão fora da sacola para a linha i

Em seguida, permute aleatoriamente os valores de uma variável xm através dos dados fora da sacola. Deixe os valores de resposta e os outros valores do preditor iguais. Em seguida, use os mesmos passos para calcular o erro quadrado médio para os dados permutados, .

A importância para a variável xm vem da diferença dos dois erros quadrados médios:

O Minitab arredonda valores menores que 10–7 para 0.

Repita esse processo para cada variável na análise. A variável com maior importância é a variável mais importante. As pontuações de importância variável relativa são dimensionados pela importância da variável mais importante:

Predições fora da sacola e de teste

Os cálculos preditos para as seguintes medidas de precisão do modelo dependem do método de validação. As predições fora da sacola vêm apenas das árvores nas quais uma linha está fora da sacola. Para uma determinada árvore j, na análise, prediga os dados fora da sacola com a árvore. Repita a predição para cada árvore da floresta. Em seguida, calcule a média das predições fora da sacola para cada linha que aparece pelo menos uma vez nos dados fora da sacola. Para a avaliação do modelo com os dados fora da sacola, a média da variável de resposta é a média em todas as linhas nos dados fora da sacola.

Para o conjunto de dados de teste, use cada árvore na floresta para prever cada valor no conjunto de dados de teste. Em seguida, a média das previsões de todas as árvores para obter a predição para o modelo. Para a avaliação do modelo com o conjunto de teste, a resposta média é a média das linhas no conjunto de teste.

R-quadrado

O cálculo de R2 usa os dados fora do sacola ou os dados de teste. As predições diferem nesses dois casos. Em geral, a fórmula para R2 tem a seguinte forma:

Raiz do quadrado médio do Erro (RMSE)

Erro quadrado médio (MSE)

Desvio absoluto médio (MAD)

Erro percentual absoluto médio (MAPE)

Notação

TermoDescrição
yi valor de resposta observado
resposta média
valor de resposta previsto para a linha
Nnúmero de linhas
Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política