Gráfico da curva característica de operação do receptor (ROC) para Ajustar modelo logístico binário

O procedimento para os pontos na curva ROC depende do método de validação.

Dados de treinamento ou sem validação

Quanto ao gráfico para um conjunto de dados de treinamento, cada ponto no gráfico representa uma probabilidade do evento distinta. A probabilidade do evento mais alta é o primeiro ponto no gráfico e aparece mais à esquerda. Os outros nós terminais estão por ordem de probabilidade dos eventos decrescente.

Use o processo a seguir para encontrar as coordenadas x e y do gráfico.

  1. Use cada probabilidade de evento como um limite. Para um limite específico, casos com probabilidade de evento estimada maior ou igual ao limite recebem 1 como a classe predita, 0 em qualquer outro caso. Depois disso, você pode formar uma tabela 2x2 para todos os casos com classes observadas como linhas e classes preditas como colunas para calcular a taxa de falsos positivos e a taxa de positivos verdadeiros para cada probabilidade do evento. As taxas de falsos positivos são as coordenadas x do gráfico. As taxas de positivas verdadeiros são as coordenadas y.

    Por exemplo, suponha que a tabela a seguir resume um modelo com dois preditores categóricos de 2 níveis. Estes preditores dão quatro probabilidades distintas de eventos, que são arredondadas para duas casas decimais:

    A: Ordem B: Preditor 1 C: Preditor 2 D: Número de eventos E: Número de não eventos F: Número de ensaios G: Limite (D/F)
    1 1 1 18 12 30 0,60
    2 1 2 25 42 67 0,37
    3 2 1 12 44 56 0,21
    4 2 2 4 32 36 0,11
    Totais     59 130 189  

    A seguir estão as quatro tabelas correspondentes com suas respectivas taxas falsos positivos e taxas de positivos verdadeiros arredondadas para duas casas decimais:

    ^^^Table : 1. Limite = 0,60.

    Taxa de falsos positivos = 12 / (12 + 118) = 0,09

    Taxa de positivos verdadeiros = 18 / (18 + 41) = 0,31

        Predito
        evento não evento
    Observado evento 18 41
    não evento 12 118
    ^^^Table : 2. Limite = 0,37.

    Taxa de falsos positivos = (12 + 42) / 130 = 0,42

    Taxa de positivos verdadeiros = (18 + 25) / 59 = 0,73

        Predito
        evento não evento
    Observado evento 43 16
    não evento 54 76
    ^^^Table : 3. Limite = 0,21.

    Taxa de falsos positivos = (12 + 42 + 44) / 130 = 0,75

    Taxa de positivos verdadeiros = (18 + 25 + 12) / 59 = 0,93

        Predito
        evento não evento
    Observado evento 55 4
    não evento 98 32
    ^^^Table : 4. Limite = 0,11.

    Taxa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1

    Taxa de positivos verdadeiros = (18 + 25 + 12 + 4) / 59 = 1

        Predito
        evento não evento
    Observado evento 59 0
    não evento 130 0

Conjunto de dados de teste separados

Use os mesmos passos do procedimento de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.

Teste com validação cruzada de K dobras

Use os mesmos passos do procedimento de conjunto de dados de treinamento, mas calcule as probabilidades de evento dos casos para a validação cruzada.