Métodos e fórmulas para o gráfico de curva característica de operação do receptor (ROC) para Classificação Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

O procedimento para os pontos na curva ROC depende do método de validação. Para uma variável resposta multinomial, o Minitab, por sua vez, exibe vários gráficos que tratam cada classe como o evento.

Validação com dados usando método out-of-bag

Para uma determinada árvore na floresta, um voto de classe para uma linha nos dados out-of-bag é a classe predita para a linha da única árvore. A classe predita para uma linha em dados out-of-bag é a classe com o maior voto em todas as árvores da floresta. A probabilidade de classe predita para uma linha nos dados out-of-bag é a razão do número de votos para a classe e o total de votos para a linha.

Para a curva dos dados out-of-bag, cada ponto no gráfico representa uma probabilidade de classe predita distinta. A probabilidade do evento mais alta é o primeiro ponto no gráfico e aparece mais à esquerda. As outras probabilidades estão em ordem decrescente.

Use o seguinte processo para encontrar as coordenadas x e y do gráfico.

  1. Use cada probabilidade de evento distinta como um limite. Para um limite específico, casos com probabilidade de evento estimada maior ou igual ao limite recebem 1 como a classe predita, 0 em qualquer outro caso. Depois disso, você pode formar uma tabela 2x2 para todos os casos com classes observadas como linhas e classes preditas como colunas para calcular a taxa de falsos positivos e a taxa de positivos verdadeiros para cada probabilidade do evento. As taxas de falsos positivos são as coordenadas x do gráfico. As taxas de positivas verdadeiros são as coordenadas y.

    Por exemplo, suponha que a tabela a seguir sumariza um modelo simplista com dois preditores categóricos de 2 níveis. Estes preditores dão quatro probabilidades distintas de eventos, que são arredondadas para duas casas decimais:

    A: Ordem B: Preditor 1 C: Preditor 2 D: Número de eventos E: Número de não eventos F: Número de ensaios G: Limite (probabilidade de evento ajustada)
    1 1 1 18 12 30 0,60
    2 1 2 25 42 67 0,37
    3 2 1 12 44 56 0,21
    4 2 2 4 32 36 0,11
    Totais     59 130 189  

    A seguir estão as quatro tabelas correspondentes com suas respectivas taxas falsos positivos e taxas de positivos verdadeiros arredondadas para duas casas decimais:

    ^^^Table : 1. Limite = 0,60.

    Taxa de falsos positivos = 12 / (12 + 118) = 0,09

    Taxa de positivos verdadeiros = 18 / (18 + 41) = 0,31

        Predito
        evento não evento
    Observado evento 18 41
    não evento 12 118
    ^^^Table : 2. Limite = 0,37.

    Taxa de falsos positivos = (12 + 42) / 130 = 0,42

    Taxa de positivos verdadeiros = (18 + 25) / 59 = 0,73

        Predito
        evento não evento
    Observado evento 43 16
    não evento 54 76
    ^^^Table : 3. Limite = 0,21.

    Taxa de falsos positivos = (12 + 42 + 44) / 130 = 0,75

    Taxa de positivos verdadeiros = (18 + 25 + 12) / 59 = 0,93

        Predito
        evento não evento
    Observado evento 55 4
    não evento 98 32
    ^^^Table : 4. Limite = 0,11.

    Taxa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1

    Taxa de positivos verdadeiros = (18 + 25 + 12 + 4) / 59 = 1

        Predito
        evento não evento
    Observado evento 59 0
    não evento 130 0

Conjunto de teste separado

Use as mesmos passos do procedimento out-of-bag, mas calcule as probabilidades de evento a partir dos casos no conjunto de teste.