Métodos e fórmulas para o gráfico de ganho para Classificação Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

O procedimento para os pontos no gráfico de ganho depende do método de validação. Para uma variável resposta multinomial, o Minitab, por sua vez, exibe vários gráficos que tratam cada classe como o evento.

Out-of-bag

Para uma determinada árvore na floresta, um voto de classe para uma linha nos dados out-of-bag é a classe predita para a linha da única árvore. A classe predita para uma linha em dados out-of-bag é a classe com o maior voto em todas as árvores da floresta. A probabilidade de classe predita para uma linha nos dados out-of-bag é a razão do número de votos para a classe e o total de votos para a linha.

Para a curva dos dados out-of-bag, cada ponto no gráfico representa uma probabilidade de classe predita distinta. A probabilidade do evento mais alta é o primeiro ponto no gráfico e aparece mais à esquerda. As outras probabilidades estão em ordem decrescente.

A coordenada y do gráfico de ganho é a taxa real positiva em uma escala percentual. O cálculo da taxa positiva real é o mesmo do gráfico de curvas ROC. A coordenada x do gráfico tem a seguinte forma:

em que é o número de linhas em que a probabilidade ajustada é maior do que o limite e N é o número total de linhas. Para obter mais detalhes sobre limites, vá para Métodos e fórmulas para o gráfico de curva característica de operação do receptor (ROC) para Classificação Random Forests®.

Conjunto de teste separado

Use os mesmos passos do caso do conjunto de treinamento, mas calcule as probabilidades de evento dos casos para o conjunto de dados de teste.