Exemple de PLS (moindres carrés partiels) avec validation croisée

Un producteur de vin veut connaître la relation entre la composition chimique de son vin et les résultats d'évaluations sensorielles. Il utilise 37 échantillons de pinot noir, chacun décrit par 17 concentrations élémentaires (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) et par un score attribué à l'arôme du vin par un jury. Il souhaite prévoir le score attribué à l'arôme en se fondant sur ces 17 éléments. Les donnnées sont issues de : I.E. Frank et B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling", Analytica Chimica Acta, 162, 241 − 251.

Le producteur souhaite inclure toutes les concentrations et toutes les interactions à deux facteurs comprenant le cadmium (Cd) dans le modèle. Le rapport échantillons/prédicteurs étant faible, le producteur décide d'utiliser la régression des moindres carrés partiels.

  1. Ouvrez le fichier de données échantillons, ArômeVin.MTW.
  2. Sélectionnez .Stat > Régression > PLS (Moindres carrés partiels)
  3. Dans la zone Réponses, saisissez Arôme.
  4. Dans la zone Modèle, saisissez Cd-K Cd*Mo Cd*Mn Cd*Ni Cd*Cu Cd*Al Cd*Ba Cd*Cr Cd*Sr Cd*Pb Cd*B Cd*mg Cd*Si Cd*Na Cd*Ca Cd*P Cd*K.
  5. Cliquez sur Options.
  6. Sous Validation croisée, sélectionnez Omettre une validation. Cliquez sur OK.
  7. Cliquez sur Graphiques. Sélectionnez Diagramme de sélection des modèles. Désélectionnez Diagramme des réponses et Diagramme des coefficients.
  8. Cliquez sur OK dans chaque boîte de dialogue.

Interprétation des résultats

Le diagramme de sélection de modèle identifie le modèle avec 4 composantes comme étant le modèle optimal, car il a le R2 prévu le plus élevé. Les R2 prévus sur le diagramme sont calculés avec la validation croisée. Le tableau de sélection et de validation de modèle indique que le R2 prévu pour le modèle optimal est d'environ 0,56. Minitab utilise le modèle optimal pour l'analyse des calculs de variance. Le modèle optimal est statistiquement significatif au seuil de signification de 0,05, car la valeur de p est d'environ 0,000.

* ERREUR * Nom de variable non reconnu. * Cause possible : texte superflu.

    En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique