Métodos e fórmulas para o sumário do modelo em Classificação CART®

Selecione o método ou fórmula de sua preferência.

Preditores importantes

O número de preditores com importância relativa positiva.

Qualquer árvore de classificação é uma coleção de divisões. Cada divisão proporciona melhorias à árvore. Cada divisão também inclui divisões de substitutos que também proporcionam melhorias na árvore. A importância de uma variável é dada por todas as suas melhorias quando a árvore usa a variável para dividir um nó ou como substituto para dividir um nó quando outra variável tem um valor faltante.

A fórmula a seguir fornece a melhoria em um único nó:

Os valores de I(t),pEsquerda, e pDireita dependem do critério para dividir os nós. Para obter mais informações, acesse Métodos de divisão de nós em Classificação CART®.

A fórmula para a importância relativa do qo preditor dimensiona a importância pela variável mais importante:

Média − Log-verossimilhança

O Minitab calcula a média da função de log-verossimilhança negativa quando a resposta é binária. Os cálculos dependem do método de validação.

Dados de treinamento ou sem validação

em que

Notação para dados de treinamento ou sem validação

TermoDescrição
Ntamanho amostral dos dados completos ou dos dados de treinamento
wipeso para a ia observação no conjunto de dados completo ou de treinamento
yivariável indicadora que é 1 para o evento e 0 em outros casos para o conjunto completo ou de dados de treinamento
probabilidade predita do evento para a ia linha no conjunto de dados completo ou de treinamento

Validação cruzada de K dobras

em que

Notação para validação cruzada de K dobras

TermoDescrição
Ntamanho amostral dos dados completos ou de treinamento
njtamanho amostral da dobra j
wijpeso para a ia observação na dobra j
yijvariável indicadora que é 1 para evento e 0 em outros casos para os dados na dobra j
probabilidade predita do evento a partir da estimativa do modelo que não inclui as observações para a ia observação na dobra j

Conjunto de dados de teste

em que

Notação para o conjunto de dados de teste

TermoDescrição
ntestetamanho amostral do conjunto de teste
wi, testepeso para a ia observação no conjunto de dados de teste
yi, testevariável indicadora que é 1 para evento e 0 em outros casos para os dados no conjunto de teste
probabilidade predita do evento para a ia linha no conjunto de teste

Área sob a curva ROC

A curva ROC traça a taxa de positivos verdadeiros (TPR), também conhecida como poder, no eixo Y, e a taxa de falsos positivos (FPR), também conhecida como erro tipo 1, no eixo x. A área sob os valores da curva ROC variam tipicamente de 0,5 a 1.

Fórmula

Para a área sob a curva, o Minitab utiliza uma integração.

Na maioria dos casos, essa integral equivale à soma das seguintes áreas de trapezoides:

em que k é o número de nós terminais e (x0, y0) é o ponto (0, 0).

Por exemplo, suponha que seus resultados tenham 4 nós terminais com as seguintes coordenadas na curva ROC:
x (taxa de falsos positivos) y (taxa de positivos verdadeiros)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Em seguida, a área sob a curva ROC é dada pelo seguinte cálculo:

Notação

TermoDescrição
TRPtaxa de positivos verdadeiros
FPRtaxa de falsos positivos
TPpositivos verdadeiros, eventos que foram corretamente avaliados
Pnúmero de eventos positivos reais
FPnegativos verdadeiros, não eventos que foram corretamente avaliados
Nnúmero de eventos negativos reais
FNRtaxa de falsos negativos
TNRtaxa de negativos verdadeiros

IC de 95% para a área sob a curva ROC

O Minitab calcula um intervalo de confiança para a área sob a curva característica de operação do receptor quando a resposta é binária.

O intervalo a seguir fornece os limites superiores e inferiores para o intervalo de confiança:

O cálculo do erro padrão da área sob a curva ROC () vem de Salford Predictive Modeler®. Para obter informações gerais sobre a estimativa da variância da área sob a curva ROC, consulte as seguintes referências:

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2ª ed.) Heidelberg; Nova York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. e Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., e Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

Notação

TermoDescrição
Aárea sob a curva ROC
0,975 percentil da distribuição normal padrão

Ganho

O Minitab exibe o ganho na tabela de sumária do modelo quando a resposta é binária. A elevação na tabela do sumário do modelo é o ganho acumulado para os 10% dos dados com a melhor chance de classificação correta.

Fórmula

Para os 10% das observações nos dados com as probabilidades mais altas serem atribuídos à classe de eventos, use a seguinte fórmula.

Para o ganho de teste com um conjunto de dados de teste, use as observações do conjunto de dados de teste. Para o ganho do teste com validação cruzada em de K dobras, selecione os dados a serem usados e calcule o ganho das probabilidades preditas para dados que não estão na estimativa do modelo.

Notação

TermoDescrição
dnúmero de casos em 10% dos dados
probabilidade predita do evento
probabilidade de evento nos dados de treinamento ou, se a análise não utilizar validação, no conjunto de dados completo

Custo de classificação errada

O custo de classificação errada na tabela de sumário do modelo é o custo relativo de classificação errada para o modelo em relação a um classificador trivial que classifica todas as observações na classe mais frequente.

Para encontrar o custo de classificação errada, comece com a seguinte definição:

O custo relativo de classificação errada tem a seguinte forma:

Em que R0 ié o custo para o classificador trivial.

A fórmula para R simplifica quando as probabilidades a priori são iguais ou são provenientes dos dados.

Probabilidades a priori iguais

Quando as probabilidades a priori são iguais, aplica-se a seguinte definição:
Com esta definição, R tem a seguinte forma:

Probabilidades a priori dos dados

Quando as probabilidades a priori são provenientes dos dados, aplica-se a seguinte definição:

Com esta definição, R tem a seguinte forma:

Notação

TermoDescrição
πjprobabilidade a priori da ja classe da variável resposta
custo de classificar errado a classe i como classe j
Número de registros da classe i classificados incorretamente como classe j
Njnúmero de casos na ja classe da variável resposta
Knúmero de classes na variável resposta
Nnúmero de casos nos dados