Interpretar os principais resultados para Regressão de mínimos quadrados parciais

Etapa 1: Determine o número de componentes no modelo

O objetivo com PLS é selecionar um modelo com o número apropriados de componentes que tenham boa capacidade preditiva. Ao ajustar um modelo PLS, você pode realizar a validação cruzada para ajudá-lo a determinar o número ótimo e componentes no modelo. Com a validação cruzada, o Minitab selecione o modelo com o valor R2 mais alto predito. Se você não usar a validação cruzada, poderá especificar o número de componentes a incluir no modelo ou usar o número padrão de componentes. O número padrão de componentes é 10 ou o número de preditoras em seus dados, o que for menor. Examine a tabela Método para determinar quantos componentes o Minitab incluiu no modelo. Você também pode examinar o Gráfico Seleção do modelo.

Ao usar PLS, selecione um modelo com o menor número de componentes que explicam uma quantidade suficiente de variabilidade nas preditoras e respostas. Para determinar o número de componentes que é melhor para os dados, examine a tabela Seleção do modelo, incluindo os valores de variância-x, R2 e R2 predito. O R2 predito indica a capacidade preditiva do modelo e só é exibido se você executar a validação cruzada.

Em alguns casos, você pode decidir usar um modelo diferente daquele inicialmente selecionado pelo Minitab. Se você tiver usado validação cruzada, compare o R2 e o R2 predito. Considere um exemplo onde remover dois componentes do modelo que o Minitab apenas reduz ligeiramente o R2 predito. Como o R2 predito só foi reduzido ligeiramente, o modelo não é sobreajustado e você pode decidir que ele se ajusta melhor aos dados.

Um R2 predito que é substancialmente menor que o R2 pode indicar que o modelo está com excesso de ajuste. Um modelo com excesso de ajuste ocorre quando você adiciona termos ou componentes para efeitos que não são importantes na população, embora eles possam parecer importantes nos dados da amostra. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.

Se você não usa validação cruzada, pode examinar os valores da variância-x na tabela Seleção do modelo para determinar quanta variância na resposta é explicada por cada modelo.

Método

Validação CruzadaExcluir um
Componentes para avaliarConjunto
Número de componentes avaliados10
Número de componentes selecionados4

Método

Validação CruzadaNenhum
Componentes para calcular.Conjunto
Número de componentes calculados10
Resultado principal: Número de componentes

Nestes resultados, na primeira validação cruzada da tabela de método foi usado e selecionado o modelo com 4 componentes. Na segunda tabela de métodos, a validação cruzada não foi usada. O Minitab usa o modelo com 10 componentes, que é o padrão.

Seleção de Modelo e Validação para Aroma

ComponentesVariância XErroR-quad.PRESQR2 (pred)
10,15884914,93890,63743523,34390,433444
20,44226712,29660,70156421,09360,488060
30,5229777,97610,80642019,61360,523978
40,5945466,65190,83855918,16830,559056
5  5,85300,85794819,26750,532379
6  5,01230,87835222,37390,456988
7  4,31090,89537424,00410,417421
8  4,08660,90081824,77360,398747
9  3,58860,91290424,90900,395460
10  3,27500,92051624,82930,397395
Resultado principal: Variância-x, R2, R2 (pred)

Nesses resultados, o Minitab selecionou o modelo de 4 componentes, que tem um valor R2 predito de aproximadamente 56%. Com base na variância-x, o modelo de 4 componentes explica quase 60% da variância nas preditoras. Conforme o número de componentes aumenta, o valor R2 aumenta, mas o R2 predito diminui, o que indica que os modelos com mais componentes são mais prováveis de estarem sobreajustados.

Etapa 2: Determine se os dados contêm outliers ou pontos de leverage

Para determinar se seu modelo se ajusta bem aos dados, Você precisa examinar os gráficos para procurar outliers, pontos de leverage e outros padrões. Se os dados contiverem muitos outliers ou pontos de leverage, o modelo pode não fazer predições válidas.

Você pode examinar os gráficos de resíduos, incluindo o gráfico de resíduos versus leverage. No gráfico de resíduos versus leverage, procure o seguinte:
  • Outliers: Observações com grandes resíduos padronizados caem fora das linhas de referência horizontais no gráfico.
  • Pontos de leverage: Observações com valores de leverage têm escores-x longe do zero e estão à direita da linha de referência vertical.

Para obter mais informações sobre o gráfico de resíduos versus leverage, vá para Gráficos para Regressão de mínimos quadrados parciais.

Neste gráfico, há dois pontos que podem ser pontos de leverage porque eles estão à direita da linha vertical. Há três pontos que podem ser outliers porque eles estão acima e abaixo das linhas de referência horizontais. Esses pontos podem ser investigados para determinar como eles afetam o ajuste do modelo.
Você também pode examinar o gráfico de Resposta para determinar quão bem o modelo se ajusta e prediz cada observação. Ao examinar este gráfico, procure as seguintes coisas:
  • Um padrão não-linear nos pontos, o que indica que o modelo pode não se ajustar ou predizer bem os dados.
  • Se você realizar a validação cruzada, grandes diferenças nos valores ajustados e com validação cruzada, o que indica um ponto de leverage.
Neste gráfico, os pontos geralmente seguem um padrão linear, indicando que o modelo se ajusta bem aos dados. Os pontos que aparecem no gráfico de resíduos versos leverage acima, não parecem ser um problema nesse gráfico.
Nesse gráfico, a validação cruzada foi usada para que ambos os valores ajustados e aqueles ajustados e com validação cruzada aparecessem no gráfico. O gráfico não revela grandes diferenças entre as respostas ajustadas e aquelas ajustadas e com validação cruzada.

Etapa 3: Validar o modelo PLS com um conjunto de dados de teste

Frequentemente, a regressão PLS é executada em duas etapas. A primeira etapa, algumas vezes chamada treinamento, envolve o cálculo de um modelo de regressão PLS para um conjunto de dados de amostra (conjunto de dados de treinamento). A segunda etapa consiste em validar esse modelo com um conjunto de dados diferente, frequentemente chamado conjunto de dados de teste. Para validar o modelo com o conjunto de dados de teste, insira as colunas dos dados de teste na caixa de subdiálogo Predição. O Minitab calcula os novos valores de resposta para cada observação no conjunto de dados de teste e compara a resposta predita à resposta real. Com base na comparação, o Minitab calcula o R2 do teste, que indica a capacidade do modelo em predizer novas respostas. Valores mais altos do R2 do teste indicam que o modelo tem maior capacidade preditiva.

Se você usar a validação cruzada, comparar o teste R2 com o R2 predito. De maneira ideal, esses valores devem ser semelhantes. Um teste R2 que é significativamente menor do que o R2 predito indica que a validação cruzada é excessivamente otimista sobre a capacidade preditiva do modelo ou que as duas amostras de dados são de populações diferentes.

Se o conjunto de dados de teste não inclui valores de resposta, o Minitab não calcula um R2 de teste.

Resposta Predita para Novas Observações Usando o Modelo para Gordura

LinhaAjusteEP do
Ajustado
IC de 95%IP de 95%
118,73720,378459(17,9740; 19,5004)(16,8612; 20,6132)
215,37820,362762(14,6466; 16,1098)(13,5149; 17,2415)
320,78380,491134(19,7933; 21,7743)(18,8044; 22,7632)
414,36840,544761(13,2698; 15,4670)(12,3328; 16,4040)
516,60160,348485(15,8988; 17,3044)(14,7494; 18,4538)
620,74710,472648(19,7939; 21,7003)(18,7861; 22,7080)
Teste R2: 0,762701
Resultado principal: R2 de teste

Nesses resultados, o teste R2 é aproximadamente 76%. O R2 predito para o conjunto de dados original é aproximadamente 78%. Como esses valores são similares, você pode concluir que o modelo tem capacidade preditiva adequada.