Exemple de Régression par les moindres carrés partiels avec validation croisée

Un producteur de vin veut connaître la relation entre la composition chimique de son vin et les résultats d'évaluations sensorielles. Il utilise 37 échantillons de pinot noir, chacun décrit par 17 concentrations élémentaires (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) et par un score attribué à l'arôme du vin par un jury. Il souhaite prévoir le score attribué à l'arôme en se fondant sur ces 17 éléments. Les donnnées sont issues de : I.E. Frank et B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling", Analytica Chimica Acta, 162, 241 − 251.

Le producteur souhaite inclure toutes les concentrations et toutes les interactions à deux facteurs comprenant le cadmium (Cd) dans le modèle. Le rapport échantillons/prédicteurs étant faible, le producteur décide d'utiliser la régression des moindres carrés partiels.

  1. Ouvrez le fichier de données échantillons, ArômeVin.MTW.
  2. Sélectionnez .Stat > Régression > PLS (Moindres carrés partiels)
  3. Dans la zone Réponses, saisissez Arôme.
  4. Dans la zone Modèle, saisissez Cd-KCd*MoCd*MnCd*NiCd*CuCd*AlCd*BaCd*CrCd*SrCd*PbCd*BCd*mgCd*SiCd*NaCd*CaCd*PCd*K.
  5. Cliquez sur Options.
  6. Sous Validation croisée, sélectionnez Omettre une validation. Cliquez sur OK.
  7. Cliquez sur Graphiques. Sélectionnez Diagramme de sélection des modèles. Désélectionnez Diagramme des réponses et Diagramme des coefficients.
  8. Cliquez sur OK dans chaque boîte de dialogue.

Interprétation des résultats

Le diagramme de sélection de modèle identifie le modèle avec 4 composantes comme étant le modèle optimal, car il a le R2 prévu le plus élevé. Les R2 prévus sur le diagramme sont calculés avec la validation croisée. Le tableau de sélection et de validation de modèle indique que le R2 prévu pour le modèle optimal est d'environ 0,56. Minitab utilise le modèle optimal pour l'analyse des calculs de variance. Le modèle optimal est statistiquement significatif au seuil de signification de 0,05, car la valeur de p est d'environ 0,000.

Méthode

Validation croiséeOmettre une validation
Composantes à évaluerDéfinir
Nombre de composantes évaluées10
Nombre de composantes sélectionnées4

Analyse de la variance pour Arôme

SourceDLSomme des
carrés
CMFP
Régression434,55148,6378441,550,000
Erreur résiduelle326,65190,20787   
Total3641,2032     

Sélection et validation de modèle pour Arôme

ComposantesVariance XErreurR carréSomCar-ErrPrévR carré
(prév)
10,15884914,93890,63743523,34390,433444
20,44226712,29660,70156421,09360,488060
30,5229777,97610,80642019,61360,523978
40,5945466,65190,83855918,16830,559056
5  5,85300,85794819,26750,532379
6  5,01230,87835222,37390,456988
7  4,31090,89537424,00410,417421
8  4,08660,90081824,77360,398747
9  3,58860,91290424,90900,395460
10  3,27500,92051624,82930,397395