Métodos e fórmulas para o gráfico de Ganho Acumulado para Classificação Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

O procedimento para o cálculo do ganho acumulado depende do método de validação. Para uma variável resposta multinomial, o Minitab, por sua vez, exibe vários gráficos que tratam cada classe como o evento.

Out-of-bag

Para uma determinada árvore na floresta, um voto de classe para uma linha nos dados out-of-bag é a classe predita para a linha da única árvore. A classe predita para uma linha em dados out-of-bag é a classe com o maior voto em todas as árvores da floresta. A probabilidade de classe predita para uma linha nos dados out-of-bag é a razão do número de votos para a classe e o total de votos para a linha.

Para a curva dos dados out-of-bag, cada ponto no gráfico representa uma probabilidade de classe predita distinta. A probabilidade do evento mais alta é o primeiro ponto no gráfico e aparece mais à esquerda. As outras probabilidades estão em ordem decrescente.

Os pontos no gráfico de elevação acumulada provêm do cálculo dos pontos no gráfico de curvas ROC. A coordenada y do gráfico de elevação acumulada é (Taxa verdadeira positiva em porcentagem / % acumulada da população na coordenada x). O cálculo da taxa positiva real é exatamente o mesmo do gráfico de curvas ROC.

A coordenada x do gráfico tem a seguinte forma:

em que é o número de linhas em que a probabilidade ajustada é maior do que o limite e N é o número total de linhas. Para obter mais detalhes sobre limites, vá para Métodos e fórmulas para o gráfico de curva característica de operação do receptor (ROC) para Classificação Random Forests®.

Conjunto de teste separado

Use os mesmos passos do caso de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.