Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Em seguida, a pontuação de importância para o preditor equivale à soma das pontuações de melhoria do modelo em todas as árvores.
em que
Termo | Descrição |
---|---|
N | tamanho amostral do conjunto de dados completos ou de treinamento |
wi | peso para a ia observação no conjunto de dados completo ou de treinamento |
yi | i-ésimo valor de resposta que é 1 para o evento e 0 em outros casos para o conjunto completo ou de dados de treinamento |
probabilidade predita do evento para a ia linha no conjunto de dados completo ou de treinamento | |
valor ajustado a partir do modelo |
em que
Termo | Descrição |
---|---|
N | tamanho amostral dos dados completos ou de treinamento |
nk | tamanho amostral de dobra k |
wi, k | peso para a iésima observação na dobra k |
yi, k | valor de resposta binária do caso i em k. yi, k = 1 dobra para classe de evento, e 0 de outra forma. |
probabilidade predita para o caso i em k dobra. A probabilidade predita é do modelo que não usa os dados em k dobra. | |
valor ajustado para caso i em k dobra. O valor ajustado é do modelo que não usa os dados em k dobra. |
em que
Termo | Descrição |
---|---|
nteste | tamanho amostral do conjunto de dados de teste |
wi, teste | peso para a ia observação no conjunto de dados de teste |
yi, teste | valor de resposta binária do caso i em k dobra no conjunto de dados de teste. yi, k = 1 para classe de evento, e 0 de outra forma. |
probabilidade predita para o caso i em conjunto de dados de teste | |
valor ajustado para o caso i em conjunto de dados de teste |
em que
Termo | Descrição |
---|---|
tamanho amostral do conjunto de dados completos ou de treinamento | |
wi | peso para a ia observação no conjunto de dados completo ou de treinamento |
yi, q | i-ésimo valor de resposta que é 1 quando e 0 de outra forma |
probabilidade predita do q-ésimo nível da resposta para a i-ésima linha no conjunto de dados completo ou de treinamento | |
valor ajustado a partir da q-ésima sequência de árvores para a i-ésima linha que é usado para calcular a probabilidade predita do q-ésimo nível da resposta |
em que
Termo | Descrição |
---|---|
N | tamanho amostral dos dados de treinamento |
nk | tamanho amostral de dobra k |
wi, k | peso para a iésima observação na dobra k |
yi, k, q | i-ésimo valor de resposta do caso i em k dobra que é 1 quando e 0 de outra forma. |
A probabilidade predita do q-ésimo nível da resposta para a i-ésima linha em k dobra. A probabilidade predita é do modelo que não usa os dados em k dobra. | |
O valor ajustado a partir da q-ésima sequência de árvores para a i-ésima linha em k dobra que é usado para calcular a probabilidade predita do q-ésimo nível da resposta O valor ajustado é do modelo que não usa os dados em k dobra. |
em que
Termo | Descrição |
---|---|
nteste | tamanho amostral de dados de teste |
wi, Teste | peso para a i-ésima observação no conjunto de dados de teste |
yi, Teste, q | i-ésimo valor de resposta do caso i no conjunto de dados de teste que é 1 quando e 0 de outra forma. |
A probabilidade predita do q-ésimonível da resposta para a i-ésima linha nos dados de teste. A probabilidade predita é do modelo que não usa os dados de teste. | |
O valor ajustado para asequênciaqth de árvores para a linha i nos dados de teste, que é usado para calcular a probabilidade predita do qnível q da resposta. A probabilidade predita é do modelo que não usa os dados de teste. |
em que k é o número de probabilidades de eventos distintos e (x0, y0) é o ponto (0, 0).
Para calcular a área de uma curva a partir de um conjunto de dados de teste ou de dados com validação cruzada, use os pontos da curva correspondente.
Termo | Descrição |
---|---|
TPR | taxa de positivos verdadeiros |
FPR | taxa de falsos positivos |
TP | positivos verdadeiros, eventos que foram corretamente avaliados |
FN | falso negativo, eventos que foram avaliados incorretamente |
P | número de eventos positivos reais |
FP | falso positivo, não eventos que foram avaliados incorretamente |
N | número de eventos negativos reais |
FNR | taxa de falsos negativos |
TNR | taxa de negativos verdadeiros |
x (taxa de falsos positivos) | y (taxa de positivos verdadeiros) |
---|---|
0,0923 | 0,3051 |
0,4154 | 0,7288 |
0,7538 | 0,9322 |
1 | 1 |
O intervalo a seguir fornece os limites superiores e inferiores para o intervalo de confiança:
O cálculo do erro padrão da área sob a curva ROC () vem de Salford Predictive Modeler®. Para obter informações gerais sobre a estimativa da variância da área sob a curva ROC, consulte as seguintes referências:
Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2ª ed.) Heidelberg; Nova York: Springer. doi:10.1007/978-3-642-16114-8
Cortes, C. e Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.
Feng, D., Cortese, G., e Baumgartner, R. (2017). A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040
Termo | Descrição |
---|---|
A | área sob a curva ROC |
0,975 percentil da distribuição normal padrão |
Para ver os cálculos gerais para elevação acumulada, vá para Métodos e fórmulas para o gráfico de elevação para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®.
No caso ponderado, use a contagem ponderada em vez da contagem.
Para validação cruzada de K dobras, a contagem de classificações incorretas é a soma das classificações incorretas apuradas na ocasião em que cada dobra é o conjunto de dados de teste.
Para validação com um conjunto de dados de teste, a contagem de classificações incorretas é a soma de classificações incorretas no conjunto de dados do teste e a contagem total é destinada ao conjunto de dados do teste.