Gráfico da curva característica de operação do receptor (ROC) para Classificação CART^®

O procedimento para os pontos na curva ROC depende do método de validação. Para uma variável resposta multinomial, o Minitab, por sua vez, exibe vários gráficos que tratam cada classe como o evento.

Conjunto de dados de treinamento ou sem validação

No caso do gráfico para um conjunto de dados de treinamento, cada ponto representa um nó terminal da árvore. O nó terminal com maior probabilidade de evento é o primeiro ponto no gráfico e aparece mais à esquerda. Os outros nós terminais estão por ordem de probabilidade dos eventos decrescente.

Use o processo a seguir para encontrar as coordenadas x e y do gráfico.

Calcule a probabilidade de evento de cada nó terminal:
em que
- n_1,k é o número de eventos no k^o nó
- N_k número de casos no k^o nó
Classifique os nós terminais da maior para a menor probabilidade de evento.

Use cada probabilidade de evento como um limite. Para um limite específico, casos com probabilidade de evento estimada maior ou igual ao limite recebem 1 como a classe predita, 0 em qualquer outro caso. Depois disso, você pode formar uma tabela 2x2 para todos os casos com classes observadas como linhas e classes preditas como colunas para calcular a taxa de falsos positivos e a taxa de positivos verdadeiros para cada nó terminal. As taxas de falsos positivos são as coordenadas x para o gráfico. As taxas de positivos verdadeiros são as coordenadas y.

Por exemplo, suponha que a tabela a seguir sumariza uma árvore com 4 nós terminais:

A: Nó terminal	B: Número de eventos	C: Número de não eventos	D: Número de casos	E: Limite (B/D)
4	18	12	30	0,60
1	25	42	67	0,37
3	12	44	56	0,21
2	4	32	36	0,11
Totais	59	130	189

A seguir estão as 4 tabelas correspondentes com suas respectivas taxas falsos positivos e taxas de positivos verdadeiros para 2 casas decimais:

^^^Table : 1. Limite = 0,60.
Taxa de falsos positivos = 12 / (12 + 118) = 0,09

Taxa de positivos verdadeiros = 18 / (18 + 41) = 0,31
		Predito
		evento	não evento
Observado	evento	18	41
Observado	não evento	12	118

^^^Table : 2. Limite = 0,37.
Taxa de falsos positivos = (12 + 42) / 130 = 0,42

Taxa de positivos verdadeiros = (18 + 25) / 59 = 0,73
		Predito
		evento	não evento
Observado	evento	43	16
Observado	não evento	54	76

^^^Table : 3. Limite = 0,21.
Taxa de falsos positivos = (12 + 42 + 44) / 130 = 0,75

Taxa de positivos verdadeiros = (18 + 25 + 12) / 59 = 0,93
		Predito
		evento	não evento
Observado	evento	55	4
Observado	não evento	98	32

^^^Table : 4. Limite = 0,11.
Taxa de falsos positivos = (12 + 42 + 44 + 32) / 130 = 1

Taxa de positivos verdadeiros = (18 + 25 + 12 + 4) / 59 = 1
		Predito
		evento	não evento
Observado	evento	59	0
Observado	não evento	130	0

Conjunto de dados de teste separados

Use os mesmos passos do procedimento de conjunto de dados de treinamento, mas calcule a probabilidade de evento dos casos para o conjunto de dados de teste.

Teste com validação cruzada de K dobras

O procedimento para definir as coordenadas x e y no gráfico da curva ROC com validação cruzada de K dobras tem um passo adicional. Este passo cria muitas probabilidades de evento distintas. Por exemplo, suponha que o diagrama da árvore contenha 4 nós terminais. Temos uma validação cruzada de 10 dobras Em seguida, para a i^a dobra, você usa a 9/10 porção dos dados para estimar as probabilidades de evento para casos na dobra i. Quando este processo se repete para cada dobra, o número máximo de probabilidades distintas de evento é de 4 *10 = 40. Depois disso, ordene todas as probabilidades de evento distintas em ordem decrescente. Use as probabilidades de evento como cada um dos valores de limite para atribuir classes preditas para casos em todo o conjunto de dados. Após este passo, do passo 3 até o final para o procedimento de conjunto de dados de treinamento são aplicadas para que seja possível localizar as coordenadas x e y.

Gráfico da curva característica de operação do receptor (ROC) para Classificação CART®

Conjunto de dados de treinamento ou sem validação

Conjunto de dados de teste separados

Teste com validação cruzada de K dobras

Gráfico da curva característica de operação do receptor (ROC) para Classificação CART^®