Métodos e fórmulas para o sumário do modelo em Classificação Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Variáveis importantes

O Minitab Statistical Software oferece dois métodos para classificar a importância das variáveis.

Permutação

O método da permutação usa os dados out-of-bag. Para uma determinada árvore j, na análise, classifique os dados out-of-bag com a árvore. Repita essa classificação para cada árvore da floresta. Em seguida, calcule a margem para cada linha que aparece pelo menos uma vez nos dados out-of-bag. A margem é a proporção de votos para a classe verdadeira menos a proporção máxima de votos entre as outras classes. Por exemplo, suponha que uma fila esteja na classe A das classes A, B e C disponíveis. A linha aparece nos dados out-of-bag 100 vezes com as seguintes classificações:
  • A = 87
  • B = 9
  • C = 4

Em seguida, a margem para essa linha é de 0,87 - 0,09 = 0,78.

A margem média out-of-bag é a margem média para todas as linhas de dados.

Para determinar a importância da variável, permute aleatoriamente os valores de uma variável, xm através dos dados out-of-bag. Deixe os valores de resposta e os outros valores do preditor iguais. Em seguida, use os mesmos passos para calcular a margem média dos dados permutados, .

A importância para a variável xm vem da diferença das duas médias:

em que é a margem média antes da permutação. O Minitab arredonda valores menores que 10–7 para 0.

Repita esse processo para cada variável na análise. A variável com maior importância é a variável mais importante. As pontuações de importância variável relativa são dimensionados pela importância da variável mais importante:

Gini

Qualquer árvore de classificação é uma coleção de divisões. Cada divisão proporciona melhorias à árvore.

A fórmula a seguir fornece a melhoria em um único nó:

A melhoria para uma única árvore é a soma das melhorias quadradas para os nódulos individuais:

em que é o número de nódulos que se dividem e para qualquer nó em que a variável de interesse não é o divisor.

A melhoria para toda uma floresta é a soma das importâncias quadradas em todas as árvores da floresta:

Em que é o número de árvores na floresta e é o número de nódulos que se dividem em árvore .

O cálculo da impureza do nó é semelhante ao método de Gini. Para obter detalhes sobre o método de Gini, vá para Métodos de divisão de nós em Classificação CART®.

A variável com maior importância é a variável mais importante. As pontuações de importância variável relativa são dimensionados pela importância da variável mais importante:

Média − Log-verossimilhança

O Minitab calcula a média do valor de log-verossimilhança negativa quando a resposta é binária. Os cálculos dependem do método de validação.

Dados out-of-bag

O cálculo usa as amostras out-of-bag de cada árvore da floresta. Devido à natureza das amostras out-of-bag, espere usar diferentes combinações de árvores para encontrar a contribuição para a probabilidade de registro para cada linha nos dados.

Para uma determinada árvore na floresta, um voto de classe para uma linha nos dados out-of-bag é a classe predita para a linha da única árvore. A classe predita para uma linha em dados out-of-bag é a classe com o maior voto em todas as árvores da floresta. A probabilidade de classe predita para uma linha nos dados out-of-bag é a razão do número de votos para a classe e o total de votos para a linha. Os cálculos de probabilidade seguem essas probabilidades:

em que

e é a probabilidade de evento calculada para a linha i nos dados out-of-bag.

Notação para dados out-of-bag

TermoDescrição
nout-of-bagnúmero de linhas que estão out-of-bag pelo menos uma vez
yi, Out-of-bagvalor de resposta binária do caso i nos dados out-of-bag. yi, out-of-bag = 1 para classe de evento, e 0 de outra forma.

Conjunto de teste

Para uma determinada árvore na floresta, um voto de classe para uma linha no conjunto de testes é a classe predita para a linha a partir da única árvore. A classe predita para uma linha no conjunto de testes é a classe com o maior voto em todas as árvores da floresta. A probabilidade de classe predita para uma linha no conjunto de teste é a razão do número de votos para a classe e o total de votos para a linha. Os cálculos de probabilidade seguem essas probabilidades:

em que

Notação para conjunto de teste

TermoDescrição
ntestetamanho amostral do conjunto de teste
yi, testevalor de resposta binária do caso i no conjunto de teste. yi, k = 1 para classe de evento, e 0 de outra forma.
probabilidade de evento previsto para o caso i no conjunto de teste

Área sob a curva ROC

A tabela sumário do modelo inclui a área sob a curva ROC quando a resposta é binária. A curva ROC traça a taxa de positivos verdadeiros (TPR), também conhecida como poder, no eixo Y, e a taxa de falsos positivos (FPR), também conhecida como erro tipo 1, no eixo x. A área sob os valores da curva ROC variam tipicamente de 0,5 a 1.

Fórmula

A área sob a curva é uma soma de áreas de trapezoides:

em que k é o número de probabilidades de eventos distintos e (x0, y0) é o ponto (0, 0).

Para calcular a área de uma curva de dados out-of-bag ou um conjunto de teste, use os pontos da curva correspondente.

Notação

TermoDescrição
Tprtaxa de positivos verdadeiros
FPRtaxa de falsos positivos
papel higiênicopositivos verdadeiros, eventos que foram corretamente avaliados
fnfalso negativo, eventos que foram avaliados incorretamente
Pnúmero de eventos positivos reais
Fpfalso positivo, não eventos que foram avaliados incorretamente
Nnúmero de eventos negativos reais
FNRtaxa de falsos negativos
TNRtaxa de negativos verdadeiros

Exemplo

Por exemplo, suponha que seus resultados tenham quatro valores ajustados distindos com as seguintes coordenadas na curva ROC:
x (taxa de falsos positivos) y (taxa de positivos verdadeiros)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Em seguida, a área sob a curva ROC é dada pelo seguinte cálculo:

IC de 95% para a área sob a curva ROC

O Minitab calcula um intervalo de confiança para a área sob a curva característica de operação do receptor quando a resposta é binária.

O intervalo a seguir fornece os limites superiores e inferiores para o intervalo de confiança:

O cálculo do erro padrão da área sob a curva ROC () vem de Salford Predictive Modeler®. Para obter informações gerais sobre a estimativa da variância da área sob a curva ROC, consulte as seguintes referências:

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2ª ed.) Heidelberg; Nova York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. e Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., e Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

Notação

TermoDescrição
Aárea sob a curva ROC
0,975 percentil da distribuição normal padrão

Ganho

O Minitab exibe o ganho na tabela de sumária do modelo quando a resposta é binária. A elevação na tabela do sumário do modelo é o ganho acumulado para 10% dos dados.

Para ver os cálculos gerais para elevação acumulada, vá para Métodos e fórmulas para o gráfico de Ganho Acumulado para Classificação Random Forests®.

Taxa de classificação errada

A equação a seguir fornece a taxa de classificação errada:

A contagem de classificações incorretas é o número de linhas nos dados out-of-bag em que suas classes preditas são diferentes de suas classes verdadeiras. A contagem total é o número total de linhas nos dados out-of-bag.

Para validação com um conjunto de dados de teste, a contagem de classificações incorretas é a soma de classificações incorretas no conjunto de testes. A contagem total é o número de linhas no conjunto de dados de teste.