No caso do gráfico para um conjunto de dados de treinamento, cada ponto representa um nó terminal da árvore. O nó terminal com maior probabilidade de evento é o primeiro ponto no gráfico e aparece mais à esquerda. Os outros nós terminais estão por ordem de probabilidade dos eventos decrescente.
Use o processo a seguir para encontrar as coordenadas x e y dos pontos.
Por exemplo, suponha que a tabela a seguir sumariza uma árvore com 4 nós terminais:
A: Nó terminal | B: Número de eventos | C: Número de casos | D: Limite (B/C) |
---|---|---|---|
4 | 18 | 30 | 0,60 |
1 | 25 | 67 | 0,37 |
3 | 12 | 56 | 0,21 |
2 | 4 | 36 | 0,11 |
Totais | 59 | 189 |
Dessa forma, apresentamos a seguir as quatro tabelas correspondentes com suas respectivas taxas positivas verdadeiras para 2 casas decimais:
Predito | |||
---|---|---|---|
evento | não evento | ||
Observado | evento | 18 | 41 |
não evento | 12 | 118 |
Predito | |||
---|---|---|---|
evento | não evento | ||
Observado | evento | 43 | 16 |
não evento | 54 | 76 |
Predito | |||
---|---|---|---|
evento | não evento | ||
Observado | evento | 55 | 4 |
não evento | 98 | 32 |
Predito | |||
---|---|---|---|
evento | não evento | ||
Observado | evento | 59 | 0 |
não evento | 130 | 0 |
Por exemplo, se o nó terminal com a maior probabilidade predita contém 0,16 dos dados e o nó terminal com a segunda maior probabilidade de evento tem 0,35 da população, a porcentagem acumulada dos dados para o primeiro nó terminal é 0,16 e a porcentagem acumulada da população para o segundo nó terminal é 0,16 + 0,35 = 0,51.
A tabela a seguir mostra um exemplo dos cálculos para uma árvore pequena. Os valores são para 2 casas decimais.
A: Nó terminal | B: Número de eventos | C: Número de casos | D: Probabilidade de evento para classificação (B/C) | E: Taxa de positivos verdadeiros | F: Porcentagem em dados (C/ soma de C) | G: Porcentagem acumulada em dados, coordenada x | H: Ganho acumulado (E/G), coordenada y |
---|---|---|---|---|---|---|---|
4 | 18 | 30 | 0,60 | 0,31 | 0,16 | 0,16 | 1,92 |
1 | 25 | 67 | 0,37 | 0,73 | 0,35 | 0,51 | 1,42 |
3 | 12 | 56 | 0,21 | 0,93 | 0,30 | 0,81 | 1,15 |
2 | 4 | 36 | 0,11 | 1 | 0,19 | 1,00 | 1 |
Use os mesmos passos do caso de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.
O procedimento para definir as coordenadas x e y no gráfico de ganho acumulado com validação cruzada k dobras tem um passo adicional. Este passo cria muitas probabilidades de evento distintas. Por exemplo, suponha que o diagrama da árvore contenha 4 nós terminais. Temos uma validação cruzada de 10 dobras Então, para o io dobras, você usa 9/10 porções de dados para estimar as probabilidades de evento para casos na dobra i. Quando este processo se repete para cada dobras o número máximo de probabilidades de evento distintas é de 4 *10 = 40. Depois disso, ordene todas as probabilidades de evento distintas em ordem decrescente. Use as probabilidades de evento como cada um dos valores de limite para atribuir classes preditas para casos em todo o conjunto de dados. Após este passo, do passo 3 até o final para o procedimento de conjunto de dados de treinamento são aplicadas para que seja possível localizar as coordenadas x e y.