Redução de modelo

A redução do modelo é a eliminação dos termos do modelo, como o termo de uma variável preditora ou da interação entre variáveis preditoras. A redução do modelo permite simplificar um modelo e aumentar a precisão das preditoras. Você pode reduzir modelos em qualquer grupo de comandos no Minitab. incluindo regressão, ANOVA, DOE e confiabilidade.

Um critério para redução do modelo é a significância estatística de um termo. A eliminação de termos estatisticamente insignificantes aumenta a precisão das predições do modelo. Para usar o critério de significância estatística, primeiro escolha um nível de significância como 0,05 ou 0,15. Depois, experimente termos diferentes para encontrar um modelo com tantos termos estatisticamente significativos quanto possível, mas com nenhum termo estatisticamente insignificativo. Para usar o critério de significância estatística, os dados devem fornecer graus de liberdade suficientes para estimar a significância estatística após você ajustar o modelo. Você pode aplicar o critério de significância estatística manualmente ou automaticamente com um procedimento algorítmico, como a regressão stepwise. O propósito do critério de significância estatística é encontrar um modelo que atende às suas metas. Contudo, o critério de significância estatística sempre produz o melhor modelo.

Além do critério de significância estatística, outros critérios estatísticos que o Minitab calcula para modelos incluem S, R² ajustado, R² predito, PRESS, Cp de Mallows e o Akaike Information Criterion (AIC). Você pode considerar um ou mais desses critérios quando reduzir um modelo.

Como a regressão stepwise, a melhor regressão de subconjuntos é um procedimento algorítmico que você pode usar para encontrar um modelo que atende suas metas. A melhor regressão de subconjuntos examina todos os modelos e identifica os modelos que têm os valores R² mais altos. No Minitab, a melhor regressão de subconjuntos também exibe outras estatísticas, como R² ajustado e R² predito. Você pode considerar essas estatísticas quando comparar modelos. Como os melhores subconjuntos usam R², os modelos que a melhor regressão de subconjuntos identifica como os melhores modelos pode ou não ter apenas termos estatisticamente significativos. Outros critérios estatísticos a considerar conforme você reduz um model incluem a multicolinearidade e a hierarquia. Esses dois conceitos são discutidos em mais detalhes a seguir.

As estatísticas que medem quão bem o modelo se ajusta aos dados podem ajudá-lo a encontrar um modelo útil. Contudo, você também deve usar o conhecimento do processo e o bom sendo para decidir quais termos eliminar. Alguns termos podem ser essenciais, enquanto outros termos podem ser muito caros ou muito difíceis de medir.

Exemplo de redução de modelo em um caso simples

Os técnicos medem o fluxo de calor total como parte de um teste de energia térmica solar. Um engenheiro de energia quer determinar como o fluxo de calor total é previsto por outras variáveis: insolação, a posição dos pontos focais no leste, sul e norte e o momento do dia. Usando o modelo de regressão completo, o engenheiro determina a seguinte relação entre o fluxo de calor e as variáveis.

Equação de Regressão Fluxo calor = 325,4 + 2,55 Leste + 3,80 Sul - 22,95 Norte + 0,0675 Insolação + 2,42 Hora do dia

Coeficientes Termo Coef EP de Coef Valor-T Valor-P VIF Constante 325,4 96,1 3,39 0,003 Leste 2,55 1,25 2,04 0,053 1,36 Sul 3,80 1,46 2,60 0,016 3,18 Norte -22,95 2,70 -8,49 0,000 2,61 Insolação 0,0675 0,0290 2,33 0,029 2,32 Hora do dia 2,42 1,81 1,34 0,194 5,37

O engenheiro quer eliminar o máximo de termos insignificantes quanto possível para maximizar a precisão das predições. O engenheiro decide usar 0,05 como o limite para a significância estatística. O valor-p para Hora do Dia (0,194) é o maior valor-p que é maior que 0,05, portanto, o engenheiro remove este termo primeiro. O engenheiro repete a regressão, removendo um termo insignificante de cada vez, até somente permanecerem os termos estatisticamente significativos. O modelo reduzido final é o seguinte:

Equação de Regressão Fluxo calor = 483,7 + 4,796 Sul - 24,22 Norte

Coeficientes EP de Termo Coef Coef Valor-T Valor-P VIF Constante 483,7 39,6 12,22 0,000 Sul 4,796 0,951 5,04 0,000 1,09 Norte -24,22 1,94 -12,48 0,000 1,09

Multicolinearidade

Multicolinearidade em regressão é uma condição que ocorre quando algumas variáveis preditora no modelo estão correlacionadas a outras variáveis preditoras. A multicolinearidade forte é problemática porque pode aumentar a variância dos coeficientes de regressão, tornando-os instáveis. Quando você remove um termo que tem alta multicolinearidade, a significância estatística e os valores dos coeficientes de termos altamente correlacionados pode mudar consideravelmente. Assim, na presença da multicolinearidade, examinar múltiplas estatísticas e mudar o modelo um termo por vez são ainda mais importantes. Normalmente, você reduz o máximo de multicolinearidade quanto possível antes de reduzir um modelo. Para obter mais informações sobre maneiras para reduzir a multicolinearidade, vá para Multicolinearidade em regressão.

Exemplo de como a multicolinearidade interfere com o critério de significância estatística

Uma equipe em uma instalação médica desenvolve um modelo para predizer os escores de satisfação dos pacientes. O modelo tem diversas variáveis, incluindo a vezes em que os pacientes estão com um profissional e as vezes em que os pacientes estão em testes médicos. Com ambas essas variáveis no modelo, a multicolinearidade é alta, com valores VIF (fator de inflação da variância) de 8,91. Os valores maiores que 5 normalmente indicam multicolinearidade grave. O valor-p da quantidade de vezes que os pacientes estão com um profissional é 0,105, que não é significativo no nível 0,05. O valor R² predito deste modelo é 22,9%.

Análise de Regressão: Satisfação versus Tempo do profissional; Tempo do teste

Sumário do Modelo S R2 R2(aj) R2(pred) 0,951953 28,68% 25,64% 22,91%

Coeficientes Termo Coef EP de Coef Valor-T Valor-P VIF Constante -0,078 0,156 -0,50 0,618 Tempo do profissional 0,1071 0,0648 1,65 0,105 8,91 Tempo do teste -0,516 0,178 -2,90 0,006 8,91

O valor R² predito do modelo com apenas a hora dos testes cai de 22,9% para 10,6%. Apesar de as vezes em que os pacientes estão com um profissional não seja estatisticamente significativo no nível 0,05, incluir aquela variável mais do que dobra o valor R² predito. A alta multicolinearidade poderia estar ocultando a importância da preditora.

Análise de Regressão: Satisfação versus Tempo do teste

Sumário do Modelo S R2 R2(aj) R2(pred) 0,968936 24,54% 22,96% 10,61%

Coeficientes Termo Coef EP de Coef Valor-T Valor-P VIF Constante -0,162 0,150 -1,08 0,285 Tempo do teste -0,2395 0,0606 -3,95 0,000 1,00

Hierarquia

Um modelo hierárquico é um modelo onde, para cada termo no modelo, todos os termos de ordem inferior também estão no modelo. Por exemplo, suponha que um modelo tem quatro fatores: A, B, C e D. Se o termo A*B*C estiver no modelo, os termos A, B, C, A*B, A*C e B*C também devem estar no modelo. Quaisquer termos com D não têm que estar no modelo porque D não está no termo A*B*C. A estrutura hierárquica se aplica ao aninhamento também. Se B(A) está no modelo, A também deve estar no modelo para que o modelo seja hierárquico.

A hierarquia é desejável porque os modelos hierárquicos podem ser traduzidos de unidades padronizadas para não padronizadas. As unidades padronizadas são comuns quando o modelo inclui termos de ordem mais alta como interações porque a padronização reduz a multicolinearidade que esses termos causam.

Como a hierarquia é desejável, a redução do modelo hierárquico é comum. Por exemplo, uma estratégia é usar o critério do valor-p para reduzir o modelo em combinação com a hierarquia. Primeiro, você remove os termos mais complexos que são estatisticamente insignificantes. Se um termo estatisticamente insignificante faz parte de um termo de interação ou um termo de ordem mais elevada, o termo permanece no modelo, A seleção de modelo stepwise do Minitab pode usar o critério de hierarquia e o critério de significância estatística.

Exemplo da redução do modelo hierárquico

Um engenheiro de materiais de um fabricante de produtos de construção está desenvolvendo um novo produto de isolamento. O engenheiro cria um experimento fatorial completo de 2 níveis para avaliar vários fatores que poderiam afetar o valor isolante do isolamento. O engenheiro inclui interações no modelo para determinar se os efeitos dos fatores dependem um do outro. Como as interações criam multicolinearidade, o engenheiro codifica as preditoras para reduzir a multicolinearidade.

O valor-p mais alto para o primeiro modelo que o engenheiro examina é 0,985 para a interação entre a temperatura da injeção e o material. Abaixo da tabela de coeficientes codificados, o engenheiro pode examinar a equação de regressão em unidades não codificadas. A equação de regressão ajuda o engenheiro a compreender o tamanho dos efeitos nas mesmas unidades que os dados.

Análise de Regressão: Isolamento versus PressInj; TempInj; TempFria; Material

Equação de Regressão em Unidades Não codificadas Material Fórmula 1 Isolamento = 26,6 + 0,154 PressInj - 0,213 TempInj - 0,906 TempFria - 0,00138 PressInj*TempInj - 0,00267 PressInj*TempFria + 0,01137 TempInj*TempFria + 0,000036 PressInj*TempInj*TempFria Fórmula 2 Isolamento = 28,3 + 0,125 PressInj - 0,179 TempInj - 0,597 TempFria - 0,00073 PressInj*TempInj - 0,00369 PressInj*TempFria + 0,00831 TempInj*TempFria + 0,000036 PressInj*TempInj*TempFria

Coeficientes Codificados EP de Termo Coef Coef Valor-T Valor-P VIF Constante 17,463 0,203 86,13 0,007 PressInj 1,835 0,203 9,05 0,070 2,00 TempInj 1,276 0,203 6,29 0,100 2,00 TempFria 2,173 0,203 10,72 0,059 2,00 Material Fórmula 2 5,192 0,287 18,11 0,035 1,00 PressInj*TempInj -0,036 0,203 -0,18 0,887 2,00 PressInj*TempFria 0,238 0,203 1,17 0,449 2,00 TempInj*TempFria 1,154 0,203 5,69 0,111 2,00 PressInj*Material Fórmula 2 -0,198 0,287 -0,69 0,615 2,00 TempInj*Material Fórmula 2 -0,007 0,287 -0,02 0,985 2,00 TempFria*Material Fórmula 2 -0,898 0,287 -3,13 0,197 2,00 PressInj*TempInj*TempFria 0,100 0,143 0,70 0,611 1,00 PressInj*TempInj*Material Fórmula 2 0,181 0,287 0,63 0,642 2,00 PressInj*TempFria*Material Fórmula 2 -0,385 0,287 -1,34 0,408 2,00 TempInj*TempFria*Material Fórmula 2 -0,229 0,287 -0,80 0,570 2,00

Se o engenheiro usa somente o critério de valor-p para reduzir o modelo, o próximo modelo é não hierárquico porque você remove uma interação de dois fatores que é parte de uma interação de três fatores. Como o modelo é não hierárquico, os coeficientes não codificados não existem. Assim, a equação de regressão do modelo não hierárquico está em unidades codificadas. A equação de regressão codificada não fornece nenhuma informação sobre os efeitos nas mesmas unidades que os dados.

Análise de Regressão: Isolamento versus PressInj; TempInj; TempFria; Material

Equação de Regressão em Unidades Codificadas Material Fórmula 1 Isolamento = 17,463 + 1,835 PressInj + 1,272 TempInj + 2,173 TempFria - 0,036 PressInj*TempInj + 0,238 PressInj*TempFria + 1,154 TempInj*TempFria + 0,100 PressInj*TempInj*TempFria Fórmula 2 Isolamento = 22,655 + 1,637 PressInj + 1,272 TempInj + 1,275 TempFria + 0,145 PressInj*TempInj - 0,147 PressInj*TempFria + 0,924 TempInj*TempFria + 0,100 PressInj*TempInj*TempFria

Coeficientes Codificados EP de Termo Coef Coef Valor-T Valor-P VIF Constante 17,463 0,143 121,77 0,000 PressInj 1,835 0,143 12,80 0,006 2,00 TempInj 1,272 0,101 12,55 0,006 1,00 TempFria 2,173 0,143 15,15 0,004 2,00 Material Fórmula 2 5,192 0,203 25,60 0,002 1,00 PressInj*TempInj -0,036 0,143 -0,25 0,824 2,00 PressInj*TempFria 0,238 0,143 1,66 0,239 2,00 TempInj*TempFria 1,154 0,143 8,04 0,015 2,00 PressInj*Material Fórmula 2 -0,198 0,203 -0,98 0,431 2,00 TempFria*Material Fórmula 2 -0,898 0,203 -4,43 0,047 2,00 PressInj*TempInj*TempFria 0,100 0,101 0,99 0,427 1,00 PressInj*TempInj*Material Fórmula 2 0,181 0,203 0,89 0,466 2,00 PressInj*TempFria*Material Fórmula 2 -0,385 0,203 -1,90 0,198 2,00 TempInj*TempFria*Material Fórmula 2 -0,229 0,203 -1,13 0,375 2,00

Em vez de usar somente o critério do valor-p, o engenheiro decide remover os termos mais completos que têm os valores-p altos primeiro. Neste modelo, em vez de remover o termo que tem o valor-p mais alto, o engenheiro remove a interação tridimensional que tem o valor-p mais alto. O valor-p mais alto de uma interação com 3 fatores é 0,466 para a interação entre pressão da injeção, temperatura da injeção e material.