Interpretar os principais resultados para Regressão de mínimos quadrados parciais

Etapa 1: Determine o número de componentes no modelo

O objetivo com PLS é selecionar um modelo com o número apropriados de componentes que tenham boa capacidade preditiva. Ao ajustar um modelo PLS, você pode realizar a validação cruzada para ajudá-lo a determinar o número ótimo e componentes no modelo. Com a validação cruzada, o Minitab selecione o modelo com o valor R2 mais alto predito. Se você não usar a validação cruzada, poderá especificar o número de componentes a incluir no modelo ou usar o número padrão de componentes. O número padrão de componentes é 10 ou o número de preditoras em seus dados, o que for menor. Examine a tabela Método para determinar quantos componentes o Minitab incluiu no modelo. Você também pode examinar o Gráfico Seleção do modelo.

Ao usar PLS, selecione um modelo com o menor número de componentes que explicam uma quantidade suficiente de variabilidade nas preditoras e respostas. Para determinar o número de componentes que é melhor para os dados, examine a tabela Seleção do modelo, incluindo os valores de variância-x, R2 e R2 predito. O R2 predito indica a capacidade preditiva do modelo e só é exibido se você executar a validação cruzada.

Em alguns casos, você pode decidir usar um modelo diferente daquele inicialmente selecionado pelo Minitab. Se você tiver usado validação cruzada, compare o R2 e o R2 predito. Considere um exemplo onde remover dois componentes do modelo que o Minitab apenas reduz ligeiramente o R2 predito. Como o R2 predito só foi reduzido ligeiramente, o modelo não é sobreajustado e você pode decidir que ele se ajusta melhor aos dados.

Um R2 predito que é substancialmente menor que o R2 pode indicar que o modelo está com excesso de ajuste. Um modelo com excesso de ajuste ocorre quando você adiciona termos ou componentes para efeitos que não são importantes na população, embora eles possam parecer importantes nos dados da amostra. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.

Se você não usa validação cruzada, pode examinar os valores da variância-x na tabela Seleção do modelo para determinar quanta variância na resposta é explicada por cada modelo.

Método Validação Cruzada Excluir um Componentes para avaliar Conjunto Número de componentes avaliados 10 Número de componentes selecionados 4
Método Validação Cruzada Nenhum Componentes para calcular. Conjunto Número de componentes calculados 10
Resultado principal: Número de componentes

Nesses resultados, na primeira tabela Método a validação cruzada foi usada e foi selecionado o modelo com 4 componentes. Na segunda tabela Método, a validação cruzada não foi usada. O Minitab usa o modelo com 10 componentes, que é o padrão.

Seleção de Modelo e Validação para Aroma Componentes Variância X Erro R2 PRESQ R2 (pred) 1 0,158849 14,9389 0,637435 23,3439 0,433444 2 0,442267 12,2966 0,701564 21,0936 0,488060 3 0,522977 7,9761 0,806420 19,6136 0,523978 4 0,594546 6,6519 0,838559 18,1683 0,559056 5 5,8530 0,857948 19,2675 0,532379 6 5,0123 0,878352 22,3739 0,456988 7 4,3109 0,895374 24,0041 0,417421 8 4,0866 0,900818 24,7736 0,398747 9 3,5886 0,912904 24,9090 0,395460 10 3,2750 0,920516 24,8293 0,397395
Resultado principal: Variância-x, R2, R2 (pred)

Nesses resultados, o Minitab selecionou o modelo de 4 componentes, que tem um valor R2 predito de aproximadamente 56%. Com base na variância-x, o modelo de 4 componentes explica quase 60% da variância nas preditoras. Conforme o número de componentes aumenta, o valor R2 aumenta, mas o R2 predito diminui, o que indica que os modelos com mais componentes são mais prováveis de estarem sobreajustados.

Etapa 2: Determine se os dados contêm outliers ou pontos de leverage

Para determinar se seu modelo se ajusta bem aos dados, Você precisa examinar os gráficos para procurar outliers, pontos de leverage e outros padrões. Se os dados contiverem muitos outliers ou pontos de leverage, o modelo pode não fazer predições válidas.

Você pode examinar os gráficos de resíduos, incluindo o gráfico de resíduos versus leverage. No gráfico de resíduos versus leverage, procure o seguinte:
  • Outliers: Observações com grandes resíduos padronizados caem fora das linhas de referência horizontais no gráfico.
  • Pontos de leverage: Observações com valores de leverage têm escores-x longe do zero e estão à direita da linha de referência vertical.

Para obter mais informações sobre o gráfico de resíduos versus leverage, vá para Gráficos para Regressão de mínimos quadrados parciais.

Neste gráfico, há dois pontos que podem ser pontos de leverage porque eles estão à direita da linha vertical. Há três pontos que podem ser outliers porque eles estão acima e abaixo das linhas de referência horizontais. Esses pontos podem ser investigados para determinar como eles afetam o ajuste do modelo.
Você também pode examinar o gráfico de Resposta para determinar quão bem o modelo se ajusta e prediz cada observação. Ao examinar este gráfico, procure as seguintes coisas:
  • Um padrão não-linear nos pontos, o que indica que o modelo pode não se ajustar ou predizer bem os dados.
  • Se você realizar a validação cruzada, grandes diferenças nos valores ajustados e com validação cruzada, o que indica um ponto de leverage.
Neste gráfico, os pontos geralmente seguem um padrão linear, indicando que o modelo se ajusta bem aos dados. Os pontos que aparecem no gráfico de resíduos versos leverage acima, não parecem ser um problema nesse gráfico.
Nesse gráfico, a validação cruzada foi usada para que ambos os valores ajustados e aqueles ajustados e com validação cruzada aparecessem no gráfico. O gráfico não revela grandes diferenças entre as respostas ajustadas e aquelas ajustadas e com validação cruzada.

Etapa 3: Validar o modelo PLS com um conjunto de dados de teste

Frequentemente, a regressão PLS é executada em duas etapas. A primeira etapa, algumas vezes chamada treinamento, envolve o cálculo de um modelo de regressão PLS para um conjunto de dados de amostra (conjunto de dados de treinamento). A segunda etapa consiste em validar esse modelo com um conjunto de dados diferente, frequentemente chamado conjunto de dados de teste. Para validar o modelo com o conjunto de dados de teste, insira as colunas dos dados de teste na caixa de subdiálogo Predição. O Minitab calcula os novos valores de resposta para cada observação no conjunto de dados de teste e compara a resposta predita à resposta real. Com base na comparação, o Minitab calcula o R2 do teste, que indica a capacidade do modelo em predizer novas respostas. Valores mais altos do R2 do teste indicam que o modelo tem maior capacidade preditiva.

Se você usar a validação cruzada, comparar o teste R2 com o R2 predito. De maneira ideal, esses valores devem ser semelhantes. Um teste R2 que é significativamente menor do que o R2 predito indica que a validação cruzada é excessivamente otimista sobre a capacidade preditiva do modelo ou que as duas amostras de dados são de populações diferentes.

Se o conjunto de dados de teste não inclui valores de resposta, o Minitab não calcula um R2 de teste.

Resposta Predita para Novas Observações Usando o Modelo para Gordura EP do Linha Ajuste Ajustado IC de 95% IP de 95% 1 18,7372 0,378459 (17,9740; 19,5004) (16,8612; 20,6132) 2 15,3782 0,362762 (14,6466; 16,1098) (13,5149; 17,2415) 3 20,7838 0,491134 (19,7933; 21,7743) (18,8044; 22,7632) 4 14,3684 0,544761 (13,2698; 15,4670) (12,3328; 16,4040) 5 16,6016 0,348485 (15,8988; 17,3044) (14,7494; 18,4538) 6 20,7471 0,472648 (19,7939; 21,7003) (18,7861; 22,7080) Teste R2: 0,762701
Resultado principal: R2 de teste

Nesses resultados, o teste R2 é aproximadamente 76%. O R2 predito para o conjunto de dados original é aproximadamente 78%. Como esses valores são similares, você pode concluir que o modelo tem capacidade preditiva adequada.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política