Métodos e fórmulas para o sumário do modelo em Ajustar modelo logístico binário e Régression logistique binaire

Selecione o método ou a fórmula de sua escolha.

desviância R2

O R2 deviance indica quanta variação na resposta é explicada pelo modelo. Quanto maior o R2, melhor o modelo se ajusta aos seus dados. A fórmula é:

Notação

TermoDescrição
DEError Deviance
DTTotal Deviance

R2 Deviance ajustado

O R2 deviance ajustado é responsável pelo número de preditoras no seu modelo e é útil para comparar modelos com diferentes números de preditoras. A fórmula é:

Notação

TermoDescrição
R2o R2 deviance
pos graus de liberdade da regressão
Φ1, para os modelos binomial e Poisson
DTa deviance total

Apesar dos cálculos para R2 deviance ajustado poderem produzir valores negativos, o Minitab exibe zero para esses casos.

Akaike Information Criterion (AIC)

Use esta estatística para comparar diferentes modelos. Quanto menor o AIC é, melhor o modelo se ajusta aos dados.

As funções de log-verossimilhança são parametrizadas nos termos das médias. A forma geral das funções são as seguintes:

A forma geral das contribuições individuais são as seguintes:

A forma específica das contribuições individuais depende do modelo.

Modelo li
Binomial
Poisson

Notação

TermoDescrição
pos graus de liberdade da regressão
Lca log-verossimilhança do modelo atual
yio número de eventos da iésima linha
mio número de ensaios da iésima linha
a resposta média estimada da iésima linha

AICc (Critério de Informação de Akaike Corrigido)

O AICc não é calculado quando .

Notação

TermoDescrição
po número de coeficientes no modelo, incluindo a constante
no número de linhas nos dados com dados não faltantes

BIC (Critério de Informação Bayesiano)

Notação

TermoDescrição
po número de coeficientes no modelo, sem contar com a constante
no número de linhas nos dados com dados não faltantes

R2da desviância de teste

O R2 da desviância de teste indica o quanto da variação na resposta do conjunto de dados de teste é explicado pelo modelo. Quanto maior o valor, melhor o modelo ajusta os dados de teste.

Fórmula

A equação a seguir dá a fórmula para o R2 da desviância de teste:

em que a equação a seguir representa a desviância de erro:

A fórmula para a desviância total, DT(Teste), depende da forma do modelo.
Logística binária
em que, para modelos com um termo de interceptação, tem a seguinte definição:
Para modelos sem um termo de interceptação,, use o inverso da função de ligação em 0. Os valores para as funções de ligação no Minitab seguem:
Função de ligação do logito
= 0,5.
Função de ligação do normito
= 0,5.
Função de ligação do gompito
.
Poisson
em que, para modelos com um termo de interceptação
Para modelos sem um termo de interceptação, .

Notação

TermoDescrição
N(teste)o número de linhas no conjunto de dados de teste
os resíduos de desviância ao quadrado
yinúmero eventos para a ia linha no conjunto de dados de teste
mio número de ensaios da ia linha no conjunto de dados de teste
DE(teste)a desviância de erro para o conjunto de dados de teste
DT(teste)o desvio total para o conjunto de dados de teste

R2 da desviância de K dobras

O R2 da desviância de teste indica o quanto da variação na resposta do conjunto de dados de teste é explicado pelo modelo. Quanto maior o valor, melhor o modelo ajusta os dados de teste.

Em que

e DT é a desviância total.

Notação

TermoDescrição
Knúmero de dobras
njtamanho amostral da duplicação j
resíduos da desviância para a ia linha da duplicação j

Área sob a curva ROC

Fórmula

A área sob a curva é a soma das áreas de trapezoides:

em que k é o número de probabilidades de eventos distintos e (x0, y0) é o ponto (0, 0).

Para calcular a área de uma curva a partir de um conjunto de dados de teste ou de dados com validação cruzada, use os pontos da curva correspondente.

Por exemplo, suponha que tenhamos quatro probabilidades de eventos distintas com as seguintes coordenadas na curva ROC:
x (taxa de falsos positivos) y (taxa de positivos verdadeiros)
0,0923 0,3051
0,4154 0,7288
0,7538 0,9322
1 1
Em seguida, a área sob a curva ROC é dada pelo seguinte cálculo:

Notação

TermoDescrição
TRPtaxa de positivos verdadeiros
FPRtaxa de falsos positivos
TPpositivos verdadeiros, eventos que foram corretamente avaliados
Pnúmero de eventos positivos reais
FPnegativos verdadeiros, não eventos que foram corretamente avaliados
Nnúmero de eventos negativos reais
FNRtaxa de falsos negativos
TNRtaxa de negativos verdadeiros