Interpretar todas as estatísticas para Regressão logística nominal

Encontre definições e interpretação para cada estatística que é fornecida com a análise de de regressão logística nominal.

Informações da resposta

O Minitab exibe essas informações sobre a resposta:
Variável
Nome da variável resposta
Valor
Níveis da variável resposta
Contagem
Número de observações em cada nível da variável resposta
Total
Número de observações não faltantes

A saída também identifica que nível de resposta é o evento de referência.

Interpretação

Use as informações de resposta para examinar quantos dados há na análise. Amostras aleatórias maiores com diversas ocorrências de cada nível, normalmente fornecem inferências mais exatas sobre a população.

Além disso use as informações da resposta para determinar qual evento é o evento de referência. A interpretação das estatísticas como coeficientes e razões de chances dependem de qual evento é o evento de referência.

Informações dos fatores

A tabela de informações dos fatores exibe os fatores do experimento, os números dos níveis e os valores dos níveis. Os fatores podem assumir somente um número limitado de valores possíveis, conhecidos como níveis de fatores. Os níveis de fatores podem ser texto ou numéricos. Os fatores numéricos usam alguns valores controlados no experimento, ainda que vários valores sejam possíveis.

Interpretação

Use a tabela de informações dos fatores para ver o número de níveis na análise. Por exemplo, um analista de qualidade planeja estudar os fatores que poderiam afetar a resistência do plástico durante o processo de fabricação. O analista incluir Aditivo. O aditivo é uma variável categórica que pode ser do tipo A ou do tipo B.

Informações dos Fatores

FatorNíveisValores
Aditivo2A; B

Os fatores podem ser cruzados ou aninhados. Dois fatores são cruzados quando cada nível de um fator ocorre em combinação com cada nível do outro fator. Dois fatores estão aninhados quando um conjunto dos níveis de um fator aparecem em somente um nível de um segundo fator. Por exemplo, se um experimento contém máquina e operador, esses fatores são cruzados se todos os operadores usarem todas as máquinas. Contudo, o operador é aninhado na máquina se cada máquina tiver um conjunto diferente de operadores.

Na tabela de informações de fatores, os parênteses indicam fatores aninhados. Por exemplo, Padrão(Avaliador) indica que o Padrão está aninhado dentro do Avaliador. Neste contexto, o aninhamento indica que cada avaliador tem seu próprio conjunto de peças padrão. Os níveis de fatores de um fator aninhado são repetidos para cada nível aninhamento, o que aumenta o número de níveis para o fator aninhado. Neste exemplo, cada avaliador tem 5 padrões, mas como o padrão está aninhado no avaliador, o padrão tem 20 níveis diferentes.

Informações dos Fatores

FatorNíveisValores
Padrão(Appraiser)201(Amanda); 2(Amanda); 3(Amanda); 4(Amanda); 5(Amanda); 1(Britt);
2(Britt); 3(Britt); 4(Britt); 5(Britt); 1(Eric); 2(Eric); 3(Eric);
4(Eric); 5(Eric); 1(Mike); 2(Mike); 3(Mike); 4(Mike); 5(Mike)
Appraiser4Amanda; Britt; Eric; Mike

Para obter mais informações sobre fatores, vá para Fatores e níveis de fatores, O que são fatores, fatores cruzados e fatores aninhados? e Qual é a diferença entre fatores fixos e aleatórios?.

Coef

A equação logística nominal trata cada resultado nominal separadamente. A equação de regressão de logística é composta de múltiplas funções logit, uma para cada valor da resposta menos um. Cada equação tem uma inclinação exclusiva para as preditoras. Essas equações avaliam como a probabilidade de um resultado nominal muda em relação a outro resultado nominal conforme as variáveis da preditora mudam.

Interpretação

Use os coeficientes para examinar como a probabilidade de um resultado muda conforme as variáveis preditoras mudam. O coeficiente estimado para um preditora representa a mudança na função de ligação para cada mudança de unidade na preditora, enquanto as outras preditoras no modelo são consideradas constantes. A relação entre o coeficiente e a probabilidade de um resultado depende de diversos aspectos da análise, incluindo o resultado de referência para a variável resposta e os níveis de referência para preditoras categóricas. Geralmente, coeficientes positivos tornam o resultado de referência menos provável conforme a preditora aumenta. Coeficientes negativos tornam o resultado de referência o mais provável conforme a preditora aumenta. Um coeficiente negado próximo de 0 sugere que o efeito da preditora é pequeno.

Por exemplo, o administrador de uma escola quer avaliar métodos de ensino diferentes. Ele usa o método de idade e ensino para predizer quais assuntos os alunos preferem. O primeiro evento do resultado é o primeiro na tabela de informações de resposta e é o resultado de referência para a variável de resposta. Para estes dados, o resultado de referência é aquele que o aluno prefere ciência. O logit 1 compara a probabilidade de que um aluno prefere matemática à ciência. Nesta equação, o valor-p para o coeficiente de idade é maior do que 0,7. Um valor-p tão alto sugere que a idade tem pouco efeito em se um aluno prefere a matemática à ciência.

O Logit 2 compara a arte à ciência. Nesta equação, o coeficiente de idade é maior do que o coeficiente que compara a matemática à ciência. O coeficiente de idade é positivo. Conforme os alunos ficam mais velhos, os alunos têm maior probabilidade de preferir artes à ciência.

A interpretação dos coeficientes para preditoras categóricas depende do nível de referência do fator. Nos dados dos métodos de ensino, os dois níveis do método de ensino são "Demonstrar" e "Explicar". "Demonstrar" não está na tabela e coeficientes, portanto "Demonstrar" é o nível de referência. O valor-p para "Explicar" na equação, que compara matemática à ciência é maior que 0,5. Um valor-p tão alto sugere que o método de ensino tem pouco efeito em se um aluno que prefere matemática à ciência.

No logit 2, o coeficiente de "Explicar" é maior do que o coeficiente que compara a matemática à ciência. O valor-p para este coeficiente é menor do que 0,05, portanto este coeficiente é estatisticamente significativo no nível 0,05. O coeficiente de "Explicar" nesta equação é positivo. Ao ensinar que o método de ensino é "Explicar". o aluno tem maior probabilidade de preferir Arte.

Informações da Resposta

VariávelValorContagem
AssuntoCiências10(Evento de Referência)
  Matemática11 
  Artes9 
  Total30 

Informações dos Fatores

FatorNíveisValores
Método de Ensino2Demonstrar; Explicar

Tabela de Regressão Logística






Razão de
Chances
IC de 95%
PreditorCoef.EP de CoefZPInferior
Logito 1: (Matemática/Ciências)           
Constante-1,122664,56425-0,250,806   
Método de Ensino           
  Explicar-0,5631150,937591-0,600,5480,570,09
Idade0,1246740,4010790,310,7561,130,52
Logito 2: (Artes/Ciências)           
Constante-13,84857,24256-1,910,056   
Método de Ensino           
  Explicar2,769921,372092,020,04415,961,08
Idade1,013540,5844941,730,0832,760,88

IC de 95%
PreditorSuperior
Logito 1: (Matemática/Ciências) 
Constante 
Método de Ensino 
  Explicar3,58
Idade2,49
Logito 2: (Artes/Ciências) 
Constante 
Método de Ensino 
  Explicar234,90
Idade8,66
Log-verossimilhança = -26,446

Teste de todas as inclinações igual a zero

GLGValor-P
412,8250,012

Testes de Qualidade de Ajuste

MétodoQui-QuadradoGLP
Pearson6,95295100,730
Deviance7,88622100,640

Coeficiente de SE

O erro padrão do coeficiente estima a variabilidade entre a estimativa do coeficiente que seria obtida caso fossem extraídas amostras da mesma população por vezes seguidas. O cálculo pressupõe que o tamanho da amostra e os coeficientes para estimativa permaneceriam os mesmos caso fossem extraídas repetidas amostras.

Interpretação

Use o erro padrão do coeficiente para medir a precisão da estimativa do coeficiente. Quanto menor o erro padrão, mais precisa é a estimativa.

Valor Z

O valor Z é uma estatística de teste que mede a razão entre o coeficiente e seu erro padrão.

Interpretação

O Minitab usa o valor Z para calcular o valor-p, que pode ser usado para a tomada de uma decisão sobre a significância estatística dos termos e do modelo. O teste de Wald é exato quando o tamanho da amostra é grande o bastante de forma que a distribuição dos coeficientes da amostra segue uma distribuição normal.

Um valor-z que está suficientemente longe de 0 indica que a estimativa do coeficiente é amplo e preciso o bastante para ser estatisticamente diferente de 0. Inversamente, um valor-z que está perto de 0 indica que a estimativa do coeficiente é muito pequena ou muito imprecisa para estar certa de que o termo tem um efeito na resposta.

Valor-p

O valor-p é uma probabilidade que mede a evidência contra a hipótese nula. As probabilidades inferiores fornecem evidências mais fortes contra a hipótese nula.

Interpretação

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que o coeficiente do termo é igual a zero, o que implica a não existência de uma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor-p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e o termo.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior ou igual ao nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e o termo. Talvez seja necessário reajustar o modelo sem o termo.
Se houver vários preditores sem uma associação estatisticamente significativa com a resposta, você pode reduzir o modelo removendo os termos um de cada vez. Para obter mais informações sobre como remover os termos do modelo, vá para Redução de modelo.
Se um termo do modelo for estatisticamente significativo, a interpretação dependerá do tipo de termo. As interpretações são da seguinte maneira:
  • Se uma preditora contínua for significativa, é possível concluir que as probabilidades do nível de resposta dependem da preditora.
  • Se uma preditora categórica for significativa, você pode concluir que os níveis de resposta têm diferentes probabilidades de ocorrer naquele nível do fator, do que no nível da referência do fator.
  • Se um termos de interação for significativo, você pode concluir que a relação entre uma preditora e as probabilidades de nível de resposta depende de outras preditoras no termo.
  • Se um termo polinomial for significativo, você pode concluir que a relação entre uma preditora e as probabilidades de nível de resposta depende da magnitude da preditora.

Razão de chances

A razão de chances compara as chances de dois eventos. As chances de um resultado são a probabilidade de que o resultado da comparação ocorra dividida pela probabilidade de que o resultado de referência ocorra.

Interpretação

Use a razão de chances para compreender o efeito de uma preditora. A interpretação da razão de chances depende se a preditora é categórica ou contínua. Na tabela de regressão logística, o resultado da comparação é o primeiro resultado após o rótulo do logit, e o resultado da referência é o segundo resultado. O resultado da referência é o mesmo para cada logit.

Razões de chances para preditoras contínuas

As razões de chances que são maiores do que 1 indicam que o resultado da comparação tem mais probabilidade do que o resultado de referência conforme a preditora aumenta. As razões de chances que não menores do que 1 indicam que o resultado de referência tem menos probabilidade do que o resultado da comparação.

Por exemplo, um administrador de escola quer avaliar diferentes métodos de ensino. Para o logit 1, o resultado da comparação é matemática. Para o logit 2, o resultado da comparação é arte. O resultado de referência é ciência. No logit 2, a estimativa da razão de chances é 2,76, que é maior do que 1. Conforme a idade aumenta, um aluno tem mais probabilidade de preferir arte à ciência. Para cada ano adicional de idade, as chances de que um aluno prefira arte é 3 vezes maior do que as chances de que ele prefira ciência.

Tabela de Regressão Logística






Razão de
Chances
IC de 95%
PreditorCoef.EP de CoefZPInferior
Logito 1: (Matemática/Ciências)           
Constante-1,122664,56425-0,250,806   
Método de Ensino           
  Explicar-0,5631150,937591-0,600,5480,570,09
Idade0,1246740,4010790,310,7561,130,52
Logito 2: (Artes/Ciências)           
Constante-13,84857,24256-1,910,056   
Método de Ensino           
  Explicar2,769921,372092,020,04415,961,08
Idade1,013540,5844941,730,0832,760,88

IC de 95%
PreditorSuperior
Logito 1: (Matemática/Ciências) 
Constante 
Método de Ensino 
  Explicar3,58
Idade2,49
Logito 2: (Artes/Ciências) 
Constante 
Método de Ensino 
  Explicar234,90
Idade8,66

Razões de chances para preditoras categóricas

Para preditoras categóricas, a razão de chances compara as chances do resultado da comparação em dois níveis diferentes da preditora. O nível de comparação está na tabela de regressão logística e tem uma razão de chances estimada. As razões de chances que são maiores que 1 indicam que o resultado da comparação torna-se mais provavelmente relativo para o resultado de referência quando a preditora categórica muda do nível de referência para o nível de comparação. As razões de chances que são menos do que 1 indicam que o resultado da comparação torna-se menos provável para o resultado de referência quando a preditora categórica muda do nível de referência para o nível de comparação.

Por exemplo, o administrador de uma escola quer avaliar métodos de ensino diferentes. Para o logit 1, o resultado da comparação é matemática. Para o logit 2, o resultado da comparação é arte. O resultado de referência é ciência. Para o logit 2, a estimativa da razão de chances para o método de ensino é 15,96, que é maior do que 1. Quando os métodos de ensino mudam de "demonstrar" para "explicar", as chances de que um aluno prefira arte são cerca de 16 vezes maiores do que as chances de que ele prefira ciência.

Tabela de Regressão Logística






Razão de
Chances
IC de 95%
PreditorCoef.EP de CoefZPInferior
Logito 1: (Matemática/Ciências)           
Constante-1,122664,56425-0,250,806   
Método de Ensino           
  Explicar-0,5631150,937591-0,600,5480,570,09
Idade0,1246740,4010790,310,7561,130,52
Logito 2: (Artes/Ciências)           
Constante-13,84857,24256-1,910,056   
Método de Ensino           
  Explicar2,769921,372092,020,04415,961,08
Idade1,013540,5844941,730,0832,760,88

IC de 95%
PreditorSuperior
Logito 1: (Matemática/Ciências) 
Constante 
Método de Ensino 
  Explicar3,58
Idade2,49
Logito 2: (Artes/Ciências) 
Constante 
Método de Ensino 
  Explicar234,90
Idade8,66

Intervalo de confiança para a razão de chances (IC de 95%)

Estes intervalos de confiança (IC) são amplitudes de valores que apresentam a probabilidade de conter os valores verdadeiros das razões de chances. O cálculo dos intervalos de confiança usa a distribuição normal. O intervalo de confiança é exato se o tamanho da amostra for grande o bastante de forma que a distribuição das razões de chances da amostra siga uma distribuição normal.

Como as amostras são aleatórias, é improvável que duas amostras de uma população produzam intervalos de confiança idênticos. No entanto, se você extrair muitas amostras aleatórias, uma determinada porcentagem dos intervalos de confiança resultantes conterá o parâmetro populacional desconhecido. A porcentagem destes intervalos de confiança que contém o parâmetro é o nível de confiança do intervalo.

O intervalo de confiança é composto pelas duas partes a seguir:
Estimativa de ponto
A estimativa de ponto é a estimativa do parâmetro que é calculada a partir dos dados da amostra.
Margem de erro
A margem de erro define a largura do intervalo de confiança e é afetado pela amplitude da probabilidade de eventos, o tamanho da amostra e o nível de confiança.

Interpretação

Use o intervalo de confiança para avaliar a estimativa da razão de chances.

Por exemplo, com um nível de confiança de 95%, é possível ter 95% de certeza de que o intervalo de confiança contém o valor da razão de chances para a população. O intervalo de confiança ajuda a avaliar a significância prática de seus resultados. Use seu conhecimento especializado para determinar se o intervalo de confiança inclui valores que tenham significância prática para a sua situação. Se o intervalo for muito amplo para ser útil, pense em aumentar o tamanho da amostra.

Teste para termos com mais de 1 grau de liberdade

Esse teste é um teste geral que considera todos os coeficientes para uma preditora categórica simultaneamente. O teste é para preditoras categóricas com mais de 2 níveis.

Interpretação

Use o teste para determinar se uma preditora categórica com mais de 1 coeficiente tem uma relação estatisticamente significativa com os eventos de resposta. Quando uma preditora categórica tem mais de 2 níveis, os coeficientes para os níveis individuais têm valores-p diferentes. O teste geral dá uma resposta única sobre se a preditora é estatisticamente significativa.

Para determinar se a associação entre os eventos da resposta e a preditora categórica é estatisticamente significativa, compare o valor-p do teste ao seu nível de significância para avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre os eventos da preditora e os eventos da resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor de p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e a preditora.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior que o nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e a preditora.

Log-verossimilhança

O Minitab maximiza a função log-verossimilhança para encontrar valores ótimos dos coeficientes estimados.

Interpretação

Use a log-verossimilhança para comprar dois modelos que usam os mesmos dados para estimar os coeficientes. Como os valores são negativos, quanto mais próximo de 0 o valor, melhor o modelo se ajusta aos dados.

A log-verossimilhança não pode diminuir quando você adiciona termos a um modelo. Por exemplo, um modelo com 5 termos tem maior log-verossimilhança do que quaisquer dos modelos de 4 termos que você pode criar com os mesmos termos. Portanto, a log-verossimilhança é mais útil quando você compara modelos do mesmo tamanho. Para tomar decisões sobre termos individuais, você normalmente examina os valores-p para o termo nos diferentes logits.

Testar que todas as inclinações sejam zero

Esse teste é um teste geral que considera todos os coeficientes para preditoras no modelo.

Interpretação

Use o teste para determinar se pelo menos uma das preditoras do modelo tem uma associação estatisticamente significativa com os eventos da resposta. Normalmente, você não interpreta a estatística G ou os graus de liberdade (DF). Os DF são iguais ao número de coeficientes das preditoras no modelo.

Para determinar se a associação entre os eventos da resposta e as preditoras é estatisticamente significativa, compare o valor-p do teste ao seu nível de significância para avaliar a hipótese nula. A hipótese nula é que todos os coeficientes das preditoras no modelo são zero, que implica que não existe nenhuma associação entre os eventos de resposta e quaisquer das preditoras. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que uma existe associação quando não existe uma associação real.
Valor-p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e pelo menos uma das preditoras.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior que o nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e quaisquer dos termos.

Teste de qualidade de ajuste de Pearson

O teste de qualidade de ajuste de Pearson avalia a discrepância entre o modelo atual e o modelo completo.

Interpretação

Use os testes de qualidade do ajuste para determinar se as probabilidades preditas se desviam das probabilidades observadas de uma maneira que a distribuição multinomial não prediz. O teste não é útil quando o número de valores distintos é aproximadamente igual ao número de observações, mas o teste é útil quando você tem múltiplas observações nos mesmos valores das preditoras. Se o valor-p do teste de qualidade do ajuste for menor do que seu nível de significância escolhido, as probabilidade preditas se desviam das probabilidades observadas de uma maneira que a distribuição multinomial não prediz. Esta lista fornece motivos comuns para o desvio:
  • Termo de ordem mais alta omitido para variáveis no modelo
  • Preditora omitida que não está no modelo

Teste de Qualidade do Ajuste Deviance

O teste de qualidade de ajuste de deviance avalia a discrepância entre o modelo atual e o modelo completo.

Interpretação

Use os testes de qualidade do ajuste para determinar se as probabilidades preditas se desviam das probabilidades observadas de uma maneira que a distribuição multinomial não prediz. O teste não é útil quando o número de valores distintos é aproximadamente igual ao número de observações, mas o teste é útil quando você tem múltiplas observações nos mesmos valores das preditoras. Se o valor-p do teste de qualidade do ajuste for menor do que seu nível de significância escolhido, as probabilidade preditas se desviam das probabilidades observadas de uma maneira que a distribuição multinomial não prediz. Esta lista fornece motivos comuns para o desvio:
  • Termo de ordem mais alta omitido para variáveis no modelo
  • Preditora omitida que não está no modelo