Dados de treinamento ou sem validação
Quanto ao gráfico para um conjunto de dados de treinamento, cada ponto no gráfico representa uma probabilidade do evento distinta. A probabilidade do evento mais alta é o primeiro ponto no gráfico e aparece mais à esquerda. Os outros nós terminais estão por ordem de probabilidade dos eventos decrescente.
Use o processo a seguir para encontrar as coordenadas x e y do gráfico.
- Use cada probabilidade de evento como um limite. Para um limite específico, casos com probabilidade de evento estimada maior ou igual ao limite recebem 1 como a classe predita, 0 em qualquer outro caso. Depois disso, você pode formar uma tabela 2x2 para todos os casos com classes observadas como linhas e classes preditas como colunas para calcular a taxa de falsos positivos e a taxa de positivos verdadeiros para cada probabilidade do evento. As taxas de falsos positivos são as coordenadas x do gráfico. As taxas de positivas verdadeiros são as coordenadas y.
Por exemplo, suponha que a tabela a seguir resume um modelo com dois preditores categóricos de 2 níveis. Estes preditores dão quatro probabilidades distintas de eventos, que são arredondadas para duas casas decimais:
A: Ordem |
B: Preditor 1 |
C: Preditor 2 |
D: Número de eventos |
E: Número de não eventos |
F: Número de ensaios |
G: Limite (D/F) |
1 |
1 |
1 |
18 |
12 |
30 |
0,60 |
2 |
1 |
2 |
25 |
42 |
67 |
0,37 |
3 |
2 |
1 |
12 |
44 |
56 |
0,21 |
4 |
2 |
2 |
4 |
32 |
36 |
0,11 |
Totais |
|
|
59 |
130 |
189 |
|
A seguir estão as quatro tabelas correspondentes com suas respectivas taxas falsos positivos e taxas de positivos verdadeiros arredondadas para duas casas decimais:
^^^Table : 1. Limite = 0,60.
Taxa de falsos positivos = 12 / (12 + 118) = 0,09
Taxa de positivos verdadeiros = 18 / (18 + 41) = 0,31
|
|
Predito |
|
|
evento |
não evento |
Observado |
evento |
18 |
41 |
não evento |
12 |
118 |
^^^Table : 2. Limite = 0,37.
Taxa de falsos positivos = (12 + 42) / 130 = 0,42
Taxa de positivos verdadeiros = (18 + 25) / 59 = 0,73
|
|
Predito |
|
|
evento |
não evento |
Observado |
evento |
43 |
16 |
não evento |
54 |
76 |
^^^Table : 3. Limite = 0,21.
Taxa de falsos positivos = (12 + 42 + 44) / 130 = 0,75
Taxa de positivos verdadeiros = (18 + 25 + 12) / 59 = 0,93
|
|
Predito |
|
|
evento |
não evento |
Observado |
evento |
55 |
4 |
não evento |
98 |
32 |
^^^Table : 4. Limite = 0,11.
Taxa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1
Taxa de positivos verdadeiros = (18 + 25 + 12 + 4) / 59 = 1
|
|
Predito |
|
|
evento |
não evento |
Observado |
evento |
59 |
0 |
não evento |
130 |
0 |
Conjunto de dados de teste separados
Use os mesmos passos do procedimento de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.
Teste com validação cruzada de K dobras
Use os mesmos passos do procedimento de conjunto de dados de treinamento, mas calcule as probabilidades de evento dos casos para a validação cruzada.