Exemple de PLS (moindres carrés partiels) avec validation croisée

Un producteur de vin veut connaître la relation entre la composition chimique de son vin et les résultats d'évaluations sensorielles. Il utilise 37 échantillons de pinot noir, chacun décrit par 17 concentrations élémentaires (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) et par un score attribué à l'arôme du vin par un jury. Il souhaite prévoir le score attribué à l'arôme en se fondant sur ces 17 éléments. Les donnnées sont issues de : I.E. Frank et B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling", Analytica Chimica Acta, 162, 241 − 251.

Le producteur souhaite inclure toutes les concentrations et toutes les interactions à deux facteurs comprenant le cadmium (Cd) dans le modèle. Le rapport échantillons/prédicteurs étant faible, le producteur décide d'utiliser la régression des moindres carrés partiels.

  1. Ouvrez le fichier de données échantillons ArômeVin.MTW.
  2. Sélectionnez Stat > Régression > PLS (Moindres carrés partiels).
  3. Dans la zone Réponses, saisissez Arôme.
  4. Dans la zone Modèle, saisissez Cd-K Cd*Mo Cd*Mn Cd*Ni Cd*Cu Cd*Al Cd*Ba Cd*Cr Cd*Sr Cd*Pb Cd*B Cd*mg Cd*Si Cd*Na Cd*Ca Cd*P Cd*K.
  5. Cliquez sur Options.
  6. Sous Validation croisée, sélectionnez Omettre une validation. Cliquez sur OK.
  7. Cliquez sur Graphiques. Sélectionnez Diagramme de sélection des modèles. Désélectionnez Diagramme des réponses et Diagramme des coefficients.
  8. Cliquez sur OK dans chaque boîte de dialogue.

Interprétation des résultats

Le diagramme de sélection de modèle identifie le modèle avec 4 composantes comme étant le modèle optimal, car il a le R2 prévu le plus élevé. Les R2 prévus sur le diagramme sont calculés avec la validation croisée. Le tableau de sélection et de validation de modèle indique que le R2 prévu pour le modèle optimal est d'environ 0,56. Minitab utilise le modèle optimal pour l'analyse des calculs de variance. Le modèle optimal est statistiquement significatif au seuil de signification de 0,05, car la valeur de p est d'environ 0,000.

Régression PLS (moindres carrés partiels) : Arôme en fonction de Cd; Mo; ...

Méthode Validation croisée Omettre une validation Composantes à évaluer Définir Nombre de composantes évaluées 10 Nombre de composantes sélectionnées 4
Analyse de la variance pour Arôme Somme des Source DL carrés CM F P Régression 4 34,5514 8,63784 41,55 0,000 Erreur résiduelle 32 6,6519 0,20787 Total 36 41,2032
Sélection et validation de modèle pour Arôme R carré Composantes Variance X Erreur R carré SomCar-ErrPrév (prév) 1 0,158849 14,9389 0,637435 23,3439 0,433444 2 0,442267 12,2966 0,701564 21,0936 0,488060 3 0,522977 7,9761 0,806420 19,6136 0,523978 4 0,594546 6,6519 0,838559 18,1683 0,559056 5 5,8530 0,857948 19,2675 0,532379 6 5,0123 0,878352 22,3739 0,456988 7 4,3109 0,895374 24,0041 0,417421 8 4,0866 0,900818 24,7736 0,398747 9 3,5886 0,912904 24,9090 0,395460 10 3,2750 0,920516 24,8293 0,397395
En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique