Gráfico de ganho Classificação CART®

O procedimento para os pontos no gráfico de ganho depende do método de validação. Para uma variável resposta multinomial, o Minitab, por sua vez, exibe vários gráficos que tratam cada classe como o evento.

Conjunto de dados de treinamento ou sem validação

No caso do gráfico para um conjunto de dados de treinamento, cada ponto representa um nó terminal da árvore. O nó terminal com maior probabilidade de evento é o primeiro ponto no gráfico e aparece mais à esquerda. Os outros nós terminais estão por ordem de probabilidade dos eventos decrescente.

Use o processo a seguir para encontrar as coordenadas x e y dos pontos.

  1. Calcule a probabilidade de evento de cada nó terminal:
    em que
    • n1,k é o número de casos na classe de eventos no ko
    • Nk é o número de casos no ko
  2. Classifique os nós terminais da maior para a menor probabilidade de evento.
  3. Para cada nó terminal, atribua os casos do nó terminal à classe de evento e os casos dos demais nós terminais à classe de não evento.

    Por exemplo, suponha que a tabela a seguir sumariza uma árvore com 4 nós terminais:

    A: Nó terminal B: Número de eventos C: Número de casos D: Limite (B/C)
    4 18 30 0,60
    1 25 67 0,37
    3 12 56 0,21
    2 4 36 0,11
    Totais 59 189

    Depois disso, os próximos são as taxas positivas correspondentes a 2 casas decimais:

    A: Nó terminal B: Número de eventos C: Taxa de positivos verdadeiros
    4 18 18 / 59 = 0,31
    1 25 25 / 59 = 0,42
    3 12 12 / 59 = 0,20
    2 4 4 / 59 = 0,07
    Totais 59

  4. Utilizando os nós terminais classificados, localize a porcentagem da população nos nós terminais:
    em que
    • Nk é o número de casos no ko
    • N é o número de casos no conjunto de dados de treinamento
  5. Para encontrar o ganho para a coordenada y, divida a taxa de positivos verdadeiros e a porcentagem da população:
  6. Para os nós terminais classificados, calcule a porcentagem acumulada dos dados em cada nó terminal. Esses valores acumulados são as coordenadas x do gráfico.

    Por exemplo, se o nó terminal com a maior probabilidade predita contém 0,16 dos dados e o nó terminal com a segunda maior probabilidade de evento tem 0,35 da população, a porcentagem acumulada dos dados para o primeiro nó terminal é 0,16 e a porcentagem acumulada da população para o segundo nó terminal é 0,16 + 0,35 = 0,51.

A tabela a seguir mostra um exemplo dos cálculos para uma árvore pequena. Os valores são para 2 casas decimais.

A: Nó terminal B: Número de eventos C: Número de casos D: Probabilidade de evento para classificação (B/C) E: Taxa de positivos verdadeiros F: Porcentagem em dados (C/ soma de C) G: Porcentagem acumulada em dados, coordenada x H: Ganho (E /F), coordenada y
4 18 30 0,60 0,31 0,16 0,16 1,94
1 25 67 0,37 0,42 0,35 0,51 1,20
3 12 56 0,21 0,20 0,30 0,81 0,67
2 4 36 0,11 0,07 0,19 1,00 0,37

Conjunto de dados de teste separados

Use os mesmos passos do caso de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.

Teste com validação cruzada de K dobras

O procedimento para definir as coordenadas x e y no gráfico de ganho com validação cruzada de K dobras tem um passo adicional. Este passo cria muitas probabilidades de evento distintas. Por exemplo, suponha que o diagrama da árvore contenha 4 nós terminais. Temos uma validação cruzada de 10 dobras Então, para o io dobras, você usa 9/10 porções de dados para estimar as probabilidades de evento para casos na dobra i. Quando este processo se repete para cada dobra, o número máximo de probabilidades de evento distintas é de 4 *10 = 40. Depois disso, ordene todas as probabilidades de evento distintas em ordem decrescente e combine todas as probabilidades de eventos distintas que precisem de mais casos para formar uma caixa (bin) adequada. Após este passo, do passo 3 até o final para o procedimento de conjunto de dados de treinamento são aplicadas para que seja possível localizar as coordenadas x e y.