No caso do gráfico para um conjunto de dados de treinamento, cada ponto representa um nó terminal da árvore. O nó terminal com maior probabilidade de evento é o primeiro ponto no gráfico e aparece mais à esquerda. Os outros nós terminais estão por ordem de probabilidade dos eventos decrescente.
Use o processo a seguir para encontrar as coordenadas x e y dos pontos.
Por exemplo, suponha que a tabela a seguir sumariza uma árvore com 4 nós terminais:
A: Nó terminal | B: Número de eventos | C: Número de casos | D: Limite (B/C) |
---|---|---|---|
4 | 18 | 30 | 0,60 |
1 | 25 | 67 | 0,37 |
3 | 12 | 56 | 0,21 |
2 | 4 | 36 | 0,11 |
Totais | 59 | 189 |
Depois disso, os próximos são as taxas positivas correspondentes a 2 casas decimais:
A: Nó terminal | B: Número de eventos | C: Taxa de positivos verdadeiros |
---|---|---|
4 | 18 | 18 / 59 = 0,31 |
1 | 25 | 25 / 59 = 0,42 |
3 | 12 | 12 / 59 = 0,20 |
2 | 4 | 4 / 59 = 0,07 |
Totais | 59 |
Por exemplo, se o nó terminal com a maior probabilidade predita contém 0,16 dos dados e o nó terminal com a segunda maior probabilidade de evento tem 0,35 da população, a porcentagem acumulada dos dados para o primeiro nó terminal é 0,16 e a porcentagem acumulada da população para o segundo nó terminal é 0,16 + 0,35 = 0,51.
A tabela a seguir mostra um exemplo dos cálculos para uma árvore pequena. Os valores são para 2 casas decimais.
A: Nó terminal | B: Número de eventos | C: Número de casos | D: Probabilidade de evento para classificação (B/C) | E: Taxa de positivos verdadeiros | F: Porcentagem em dados (C/ soma de C) | G: Porcentagem acumulada em dados, coordenada x | H: Ganho (E /F), coordenada y |
---|---|---|---|---|---|---|---|
4 | 18 | 30 | 0,60 | 0,31 | 0,16 | 0,16 | 1,94 |
1 | 25 | 67 | 0,37 | 0,42 | 0,35 | 0,51 | 1,20 |
3 | 12 | 56 | 0,21 | 0,20 | 0,30 | 0,81 | 0,67 |
2 | 4 | 36 | 0,11 | 0,07 | 0,19 | 1,00 | 0,37 |
Use os mesmos passos do caso de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.
O procedimento para definir as coordenadas x e y no gráfico de ganho com validação cruzada de K dobras tem um passo adicional. Este passo cria muitas probabilidades de evento distintas. Por exemplo, suponha que o diagrama da árvore contenha 4 nós terminais. Temos uma validação cruzada de 10 dobras Então, para o io dobras, você usa 9/10 porções de dados para estimar as probabilidades de evento para casos na dobra i. Quando este processo se repete para cada dobra, o número máximo de probabilidades de evento distintas é de 4 *10 = 40. Depois disso, ordene todas as probabilidades de evento distintas em ordem decrescente e combine todas as probabilidades de eventos distintas que precisem de mais casos para formar uma caixa (bin) adequada. Após este passo, do passo 3 até o final para o procedimento de conjunto de dados de treinamento são aplicadas para que seja possível localizar as coordenadas x e y.