Exemplo de Regressão de mínimos quadrados parciais com validação cruzada

Um produtor de vinho quer saber como a composição química do seu vinho está relacionada às avaliações sensoriais. Ele tem 37 amostras de Pinot Noir, cada uma descrita por 17 concentrações de elementos (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) e uma pontuação sobre o aroma do vinho de um painel de juízes. Ele quer prever a pontuação do aroma com base nos 17 elementos. Os dados são de: I.E. Frank e B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241 − 251.

O produtor quer incluir todas as concentrações e todas as interações bidirecionais que incluem o cádmio (Cd) no modelo. Como a proporção de amostras para preditores é baixa, o produtor decide usar a regressão de mínimos quadrados parciais.

  1. Abra os dados das amostras AromaDeVinho.MTW.
  2. Selecione Estat > Regressão > Mínimos quadrados parciais.
  3. Em Respostas, insira Aroma.
  4. Em Modelo, insira Cd-KCd*MoCd*MnCd*NiCd*CuCd*AlCd*BaCd*CrCd*SrCd*PbCd*BCd*MgCd*SiCd*NaCd*CaCd*PCd*K.
  5. Clique em Opções.
  6. Em Validação Cruzada, selecione Excluir um. Clique em OK.
  7. Clique em Gráficos. Selecione Gráfico de seleção de modelo. Desmarque Gráfico de resposta e Gráfico de coeficiente.
  8. Clique em OK em cada caixa de diálogo.

Interpretar os resultados

O gráfico Seleção do modelo identifica o modelo com 4 componentes como o modelo ótimo porque o modelo de 4 componentes tem o mais alto valor R2 predito. Os valores R2 preditos no gráfico são calculados com validação cruzada. A seleção do modelo e a tabela de validação mostra que o valor R2 predito para o modelo ótimo é e aproximadamente 0,56. O Minitab usa o modelo ótimo para a análise dos cálculos da variância. O modelo ótimo é estatisticamente significativo no nível 0,05 de significância porque o valor-p é de aproximadamente 0,000.

Método

Validação CruzadaExcluir um
Componentes para avaliarConjunto
Número de componentes avaliados10
Número de componentes selecionados4

Análise de Variância para Aroma

FonteGLSQQMFP
Regressão434,55148,6378441,550,000
Erro de Resíduos326,65190,20787   
Total3641,2032     

Seleção de Modelo e Validação para Aroma

ComponentesVariância XErroR-quad.PRESQR2 (pred)
10,15884914,93890,63743523,34390,433444
20,44226712,29660,70156421,09360,488060
30,5229777,97610,80642019,61360,523978
40,5945466,65190,83855918,16830,559056
5  5,85300,85794819,26750,532379
6  5,01230,87835222,37390,456988
7  4,31090,89537424,00410,417421
8  4,08660,90081824,77360,398747
9  3,58860,91290424,90900,395460
10  3,27500,92051624,82930,397395