O objetivo com PLS é selecionar um modelo com o número apropriados de componentes que tenham boa capacidade preditiva. Ao ajustar um modelo PLS, você pode realizar a validação cruzada para ajudá-lo a determinar o número ótimo e componentes no modelo. Com a validação cruzada, o Minitab selecione o modelo com o valor R2 mais alto predito. Se você não usar a validação cruzada, poderá especificar o número de componentes a incluir no modelo ou usar o número padrão de componentes. O número padrão de componentes é 10 ou o número de preditoras em seus dados, o que for menor. Examine a tabela Método para determinar quantos componentes o Minitab incluiu no modelo. Você também pode examinar o Gráfico Seleção do modelo.
Ao usar PLS, selecione um modelo com o menor número de componentes que explicam uma quantidade suficiente de variabilidade nas preditoras e respostas. Para determinar o número de componentes que é melhor para os dados, examine a tabela Seleção do modelo, incluindo os valores de variância-x, R2 e R2 predito. O R2 predito indica a capacidade preditiva do modelo e só é exibido se você executar a validação cruzada.
Em alguns casos, você pode decidir usar um modelo diferente daquele inicialmente selecionado pelo Minitab. Se você tiver usado validação cruzada, compare o R2 e o R2 predito. Considere um exemplo onde remover dois componentes do modelo que o Minitab apenas reduz ligeiramente o R2 predito. Como o R2 predito só foi reduzido ligeiramente, o modelo não é sobreajustado e você pode decidir que ele se ajusta melhor aos dados.
Um R2 predito que é substancialmente menor que o R2 pode indicar que o modelo está com excesso de ajuste. Um modelo com excesso de ajuste ocorre quando você adiciona termos ou componentes para efeitos que não são importantes na população, embora eles possam parecer importantes nos dados da amostra. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.
Se você não usa validação cruzada, pode examinar os valores da variância-x na tabela Seleção do modelo para determinar quanta variância na resposta é explicada por cada modelo.
Validação Cruzada | Excluir um |
---|---|
Componentes para avaliar | Conjunto |
Número de componentes avaliados | 10 |
Número de componentes selecionados | 4 |
Validação Cruzada | Nenhum |
---|---|
Componentes para calcular. | Conjunto |
Número de componentes calculados | 10 |
Nestes resultados, na primeira validação cruzada da tabela de método foi usado e selecionado o modelo com 4 componentes. Na segunda tabela de métodos, a validação cruzada não foi usada. O Minitab usa o modelo com 10 componentes, que é o padrão.
Componentes | Variância X | Erro | R-quad. | PRESQ | R2 (pred) |
---|---|---|---|---|---|
1 | 0,158849 | 14,9389 | 0,637435 | 23,3439 | 0,433444 |
2 | 0,442267 | 12,2966 | 0,701564 | 21,0936 | 0,488060 |
3 | 0,522977 | 7,9761 | 0,806420 | 19,6136 | 0,523978 |
4 | 0,594546 | 6,6519 | 0,838559 | 18,1683 | 0,559056 |
5 | 5,8530 | 0,857948 | 19,2675 | 0,532379 | |
6 | 5,0123 | 0,878352 | 22,3739 | 0,456988 | |
7 | 4,3109 | 0,895374 | 24,0041 | 0,417421 | |
8 | 4,0866 | 0,900818 | 24,7736 | 0,398747 | |
9 | 3,5886 | 0,912904 | 24,9090 | 0,395460 | |
10 | 3,2750 | 0,920516 | 24,8293 | 0,397395 |
Nesses resultados, o Minitab selecionou o modelo de 4 componentes, que tem um valor R2 predito de aproximadamente 56%. Com base na variância-x, o modelo de 4 componentes explica quase 60% da variância nas preditoras. Conforme o número de componentes aumenta, o valor R2 aumenta, mas o R2 predito diminui, o que indica que os modelos com mais componentes são mais prováveis de estarem sobreajustados.
Para determinar se seu modelo se ajusta bem aos dados, Você precisa examinar os gráficos para procurar outliers, pontos de leverage e outros padrões. Se os dados contiverem muitos outliers ou pontos de leverage, o modelo pode não fazer predições válidas.
Para obter mais informações sobre o gráfico de resíduos versus leverage, vá para Gráficos para Regressão de mínimos quadrados parciais.
Frequentemente, a regressão PLS é executada em duas etapas. A primeira etapa, algumas vezes chamada treinamento, envolve o cálculo de um modelo de regressão PLS para um conjunto de dados de amostra (conjunto de dados de treinamento). A segunda etapa consiste em validar esse modelo com um conjunto de dados diferente, frequentemente chamado conjunto de dados de teste. Para validar o modelo com o conjunto de dados de teste, insira as colunas dos dados de teste na caixa de subdiálogo Predição. O Minitab calcula os novos valores de resposta para cada observação no conjunto de dados de teste e compara a resposta predita à resposta real. Com base na comparação, o Minitab calcula o R2 do teste, que indica a capacidade do modelo em predizer novas respostas. Valores mais altos do R2 do teste indicam que o modelo tem maior capacidade preditiva.
Se você usar a validação cruzada, comparar o teste R2 com o R2 predito. De maneira ideal, esses valores devem ser semelhantes. Um teste R2 que é significativamente menor do que o R2 predito indica que a validação cruzada é excessivamente otimista sobre a capacidade preditiva do modelo ou que as duas amostras de dados são de populações diferentes.
Se o conjunto de dados de teste não inclui valores de resposta, o Minitab não calcula um R2 de teste.
Linha | Ajuste | EP do Ajustado | IC de 95% | IP de 95% |
---|---|---|---|---|
1 | 18,7372 | 0,378459 | (17,9740; 19,5004) | (16,8612; 20,6132) |
2 | 15,3782 | 0,362762 | (14,6466; 16,1098) | (13,5149; 17,2415) |
3 | 20,7838 | 0,491134 | (19,7933; 21,7743) | (18,8044; 22,7632) |
4 | 14,3684 | 0,544761 | (13,2698; 15,4670) | (12,3328; 16,4040) |
5 | 16,6016 | 0,348485 | (15,8988; 17,3044) | (14,7494; 18,4538) |
6 | 20,7471 | 0,472648 | (19,7939; 21,7003) | (18,7861; 22,7080) |
Nesses resultados, o teste R2 é aproximadamente 76%. O R2 predito para o conjunto de dados original é aproximadamente 78%. Como esses valores são similares, você pode concluir que o modelo tem capacidade preditiva adequada.