Métodos e fórmulas para o sumário do modelo em Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Escolha o método ou fórmula de sua preferência.

Preditores importantes

O número de preditores com importância relativa positiva.
Um modelo Classificação TreeNet® vem de uma sequência de pequenas árvores de regressão que utilizam resíduos generalizados como variável resposta. O cálculo da pontuação de melhoria do modelo para um preditor de uma única árvore tem dois passos:
  1. Encontre a redução de erros quadrados médios quando o preditor dividir um nó.
  2. Adicione todas as reduções de todos os nós onde o preditor é o divisor de nó.

Em seguida, a pontuação de importância para o preditor equivale à soma das pontuações de melhoria do modelo em todas as árvores.

Média – log-verossimilhança para uma resposta binária

Os cálculos dependem do método de validação.

Dados de treinamento ou sem validação

em que

e

Notação para dados de treinamento ou sem validação

TermoDescrição
Ntamanho amostral do conjunto de dados completos ou de treinamento
wipeso para a ia observação no conjunto de dados completo ou de treinamento
yii-ésimo valor de resposta que é 1 para o evento e 0 em outros casos para o conjunto completo ou de dados de treinamento
probabilidade predita do evento para a ia linha no conjunto de dados completo ou de treinamento
valor ajustado a partir do modelo

Validação cruzada de K dobras

em que

e

Notação para validação cruzada de K dobras

TermoDescrição
Ntamanho amostral dos dados completos ou de treinamento
nktamanho amostral de dobra k
wi, kpeso para a iésima observação na dobra k
yi, kvalor de resposta binária do caso i em k. yi, k = 1 dobra para classe de evento, e 0 de outra forma.
probabilidade predita para o caso i em k dobra. A probabilidade predita é do modelo que não usa os dados em k dobra.
valor ajustado para caso i em k dobra. O valor ajustado é do modelo que não usa os dados em k dobra.

Conjunto de dados de teste

em que

e

Notação para o conjunto de dados de teste

TermoDescrição
ntestetamanho amostral do conjunto de dados de teste
wi, testepeso para a ia observação no conjunto de dados de teste
yi, testevalor de resposta binária do caso i em k dobra no conjunto de dados de teste. yi, k = 1 para classe de evento, e 0 de outra forma.
probabilidade predita para o caso i em conjunto de dados de teste
valor ajustado para o caso i em conjunto de dados de teste

Média – log-verossimilhança para uma resposta multinomial

Os cálculos dependem do método de validação. Nas seções seguintes, é o número de níveis na variável resposta.

Dados de treinamento ou sem validação

em que

Notação para dados de treinamento ou sem validação

TermoDescrição
tamanho amostral do conjunto de dados completos ou de treinamento
wipeso para a ia observação no conjunto de dados completo ou de treinamento
yi, qi-ésimo valor de resposta que é 1 quando e 0 de outra forma
probabilidade predita do q-ésimo nível da resposta para a i-ésima linha no conjunto de dados completo ou de treinamento
valor ajustado a partir da q-ésima sequência de árvores para a i-ésima linha que é usado para calcular a probabilidade predita do q-ésimo nível da resposta

Validação cruzada de K dobras

em que

Notação para validação cruzada de K dobras

TermoDescrição
Ntamanho amostral dos dados de treinamento
nktamanho amostral de dobra k
wi, kpeso para a iésima observação na dobra k
yi, k, qi-ésimo valor de resposta do caso i em k dobra que é 1 quando e 0 de outra forma.
A probabilidade predita do q-ésimo nível da resposta para a i-ésima linha em k dobra. A probabilidade predita é do modelo que não usa os dados em k dobra.
O valor ajustado a partir da q-ésima sequência de árvores para a i-ésima linha em k dobra que é usado para calcular a probabilidade predita do q-ésimo nível da resposta O valor ajustado é do modelo que não usa os dados em k dobra.

Conjunto de dados de teste

em que

Notação para o conjunto de dados de teste

TermoDescrição
ntestetamanho amostral de dados de teste
wi, Testepeso para a i-ésima observação no conjunto de dados de teste
yi, Teste, qi-ésimo valor de resposta do caso i no conjunto de dados de teste que é 1 quando e 0 de outra forma.
A probabilidade predita do q-ésimonível da resposta para a i-ésima linha nos dados de teste. A probabilidade predita é do modelo que não usa os dados de teste.
O valor ajustado para asequênciaqth de árvores para a linha i nos dados de teste, que é usado para calcular a probabilidade predita do qnível q da resposta. A probabilidade predita é do modelo que não usa os dados de teste.

Área sob a curva ROC

A tabela sumário do modelo inclui a área sob a curva ROC quando a resposta é binária. A curva ROC traça a taxa de positivos verdadeiros (TPR), também conhecida como poder, no eixo Y, e a taxa de falsos positivos (FPR), também conhecida como erro tipo 1, no eixo x. A área sob os valores da curva ROC variam tipicamente de 0,5 a 1.

Fórmula

A área sob a curva é uma soma de áreas de trapezoides:

em que k é o número de probabilidades de eventos distintos e (x0, y0) é o ponto (0, 0).

Para calcular a área de uma curva a partir de um conjunto de dados de teste ou de dados com validação cruzada, use os pontos da curva correspondente.

Notação

TermoDescrição
TPRtaxa de positivos verdadeiros
FPRtaxa de falsos positivos
TPpositivos verdadeiros, eventos que foram corretamente avaliados
FNfalso negativo, eventos que foram avaliados incorretamente
Pnúmero de eventos positivos reais
FPfalso positivo, não eventos que foram avaliados incorretamente
Nnúmero de eventos negativos reais
FNRtaxa de falsos negativos
TNRtaxa de negativos verdadeiros

Exemplo

Por exemplo, suponha que seus resultados tenham quatro valores ajustados distindos com as seguintes coordenadas na curva ROC:
x (taxa de falsos positivos) y (taxa de positivos verdadeiros)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Em seguida, a área sob a curva ROC é dada pelo seguinte cálculo:

IC de 95% para a área sob a curva ROC

O Minitab calcula um intervalo de confiança para a área sob a curva característica de operação do receptor quando a resposta é binária.

O intervalo a seguir fornece os limites superiores e inferiores para o intervalo de confiança:

O cálculo do erro padrão da área sob a curva ROC () vem de Salford Predictive Modeler®. Para obter informações gerais sobre a estimativa da variância da área sob a curva ROC, consulte as seguintes referências:

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2ª ed.) Heidelberg; Nova York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. e Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., e Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

Notação

TermoDescrição
Aárea sob a curva ROC
0,975 percentil da distribuição normal padrão

Ganho

O Minitab exibe o ganho na tabela de sumária do modelo quando a resposta é binária. A elevação na tabela do sumário do modelo é o ganho acumulado para 10% dos dados.

Taxa de classificação errada

No caso ponderado, use a contagem ponderada em vez da contagem.

Para validação cruzada de K dobras, a contagem de classificações incorretas é a soma das classificações incorretas apuradas na ocasião em que cada dobra é o conjunto de dados de teste.

Para validação com um conjunto de dados de teste, a contagem de classificações incorretas é a soma de classificações incorretas no conjunto de dados do teste e a contagem total é destinada ao conjunto de dados do teste.