Os dois métodos produzem pequenas diferenças nos resultados. Por exemplo, se você armazenar os resultados com qualquer método, as estatísticas de previsão estão na planilha, mas a versão com Descobrir o melhor modelo (Resposta binária) também exibe a equação de regressão no painel de saída. A versão com Ajustar modelo logístico binário pode incluir o erro padrão do ajuste e o intervalo de confiança para o ajuste. Com qualquer método, os resultados no painel de saída incluem a equação de regressão, as configurações para os preditores e a tabela Predição.
Para regressão logística binária, o Minitab mostra dois tipos de equações de regressão. A primeira equação diz respeito à probabilidade do evento para a resposta transformada.A primeira equação se relaciona ao número de eventos da resposta transformada. A forma da primeira equação depende da função de ligação.
A segunda equação relaciona as preditoras à resposta transformada. Se o modelo contiver preditoras contínuas e categóricas, a segunda equação pode ser separada para cada combinação de categorias.
Use as equações para examinar a relação entre a resposta e as variáveis preditoras.
A primeira equação mostra a relação entre a probabilidade e a resposta transformada por causa da função de ligação do logit.
A segunda equação mostra como a renda e se um cliente tem filhos estão relacionados à resposta transformada. Quando o cliente não tem filhos, o coeficiente para renda é de cerca de 0,04. Quando o cliente tem filhos, o coeficiente é de cerca de 0,02. Para essas equações, quanto mais renda o cliente tem, mais provavelmente ele comprará o produto. Contudo, a rende tem um efeito mais forte em se o cliente compra o produto quando o cliente não tem filhos.
P(1) | = | exp(Y')/(1 + exp(Y')) |
---|
Crianças | |||
---|---|---|---|
Não | Y' | = | -3,549 + 0,04296 Renda |
Sim | Y' | = | -1,076 + 0,01565 Renda |
Se seu modelo for não-hierárquico e você tiver padronizado as preditoras contínuas, a equação de regressão estará em unidades codificadas. Para obter mais informações, consulte a seção em Coeficientes Codificados. Para obter mais informações sobre hierarquia, vá para O que são modelos hierárquicos?.
O Minitab usa a equação de regressão e as definições de variáveis para calcular o ajuste. Se as definições das variáveis são incomuns em comparação com os dados que foram utilizados para estimar o modelo, é exibido um aviso abaixo da predição.
Use a tabela de definição de variáveis para verificar se a análise foi realizada da forma desejada.
Quando você cria o modelo com Descobrir o melhor modelo (Resposta binária), a tabela Predição mostra um número de observação, a classe prevista e a probabilidade de adesão em cada classe. Quando você cria o modelo com Ajustar modelo logístico binário, a tabela Predição inclui a Probabilidade Instalada.
A probabilidade do evento é a chance de que um evento ou resultado específico ocorra. A probabilidade do evento estima a verossimilhança de um evento ocorrer, como tirar um ás de um baralho de cartas ou de fabricar uma peça de não conformidade. A probabilidade de um evento varia de 0 (impossível) até 1 (certa).
Na regressão logística binária, uma variável de resposta tem apenas dois valores possíveis, como a presença ou ausência de uma doença em particular. A probabilidade do evento é a verossimilhança de que a resposta para um dado fator ou padrão de covariável é 1 para um evento (por exemplo, a verossimilhança de que uma mulher acima de 50 irá desenvolver diabetes tipo 2).
Cada execução de um experimento é chamada ensaio. Por exemplo, se você joga uma moeda para o ar 10 vezes e registra o número de caras, você executa 10 ensaios do experimento. Se os ensaios forem independentes e igualmente prováveis, você pode estimar a probabilidade do evento dividindo o número de eventos pelo número total de ensaios. Por exemplo, se você obtiver 6 caras em 10 lançamentos da moeda, a probabilidade estimada do evento (cara) é:
Número de eventos / número de ensaios = 6 / 10 = = 0,6
O SE Fit está na tabela de previsão quando você cria o modelo com Ajustar modelo logístico binário. O erro padrão do ajuste (EP fit) estima a variação na resposta da média estimada para as configurações de variável especificadas. O cálculo do intervalo de confiança para a resposta média usa o erro padrão do ajuste. Os erros padrão são sempre não negativos.
Use o erro padrão do ajuste para medir a exatidão da estimativa da resposta média. Quanto menor o erro padrão, mais precisa é a resposta média predita. Por exemplo, um analista desenvolve um modelo para predizer o tempo de entrega. Para um conjunto de configurações de variável, o modelo prediz um tempo de entrega médio de 3,80 dias. O erro padrão do ajuste para estas configurações é 0,08 dias. Para o segundo conjunto de configurações de variáveis, o modelo produz o mesmo tempo de entrega médio, com um erro padrão de ajuste de 0,02 dias. O analista pode ter mais confiança de que o tempo médio de entrega para o segundo conjunto de configurações de variáveis está próximo de 3,80 dias.
Com o valor ajustado, é possível usar o erro padrão do ajuste para criar um intervalo de confiança para a resposta média. Por exemplo, dependendo do número de graus de liberdade, um intervalo de confiança de 95% se estende cerca de dois desvios padrão acima e abaixo da média prevista. Para os tempos de entrega, o intervalo de confiança de 95% para a média prevista de 3,80 dias, quando o erro padrão é de 0,08 é (3,64, 3,96) dias. Você pode ter 95% de confiança de que a média da população está dentro deste intervalo. Quando o erro padrão é de 0,02, o intervalo de confiança de 95% é (3,76, 3,84) dias. O intervalo de confiança para o segundo conjunto de definições de variáveis é mais estreito, porque o erro padrão é menor.
O intervalo de confiança para o ajuste está na tabela de previsão quando você cria o modelo com Ajustar modelo logístico binário. Esses intervalos de confiança (IC) são intervalos de valores que provavelmente contêm a probabilidade de evento para a população que tem os valores observados das variáveis preditoras que estão no modelo.
Como as amostras são aleatórias, é improvável que duas amostras de uma população produzam intervalos de confiança idênticos. Mas, se você extrair amostras várias vezes, uma determinada porcentagem dos intervalos de confiança resultantes conterá o parâmetro populacional desconhecido. A porcentagem destes intervalos de confiança que contém o parâmetro é o nível de confiança do intervalo.
Use o intervalo de confiança para avaliar a estimativa do valor ajustado para os valores observados das variáveis.
Por exemplo, com um nível de confiança de 95%, você pode ter 95% de confiança de que o intervalo de confiança contém a probabilidade de evento para os valores especificados das variáveis no modelo. O intervalo de confiança ajuda a avaliar a significância prática de seus resultados. Use seu conhecimento especializado para determinar se o intervalo de confiança inclui valores que tenham significância prática para a sua situação. Se o intervalo for muito amplo para ser útil, pense em aumentar o tamanho da amostra.