Interprétation des résultats principaux pour la fonction Régression par les moindres carrés partiels

Etape 1 : Déterminer le nombre de composantes dans le modèle

L'objectif avec PLS est de sélectionner un modèle avec un nombre de composantes adapté et une bonne capacité de prévision. Lorsque vous ajustez un modèle PLS, vous pouvez réaliser une validation croisée pour déterminer le nombre optimal de composantes. Avec la validation croisée, Minitab sélectionne le modèle ayant le R2 prévu le plus élevé. Si vous n'utilisez pas la validation croisée, vous pouvez indiquer le nombre de composantes à inclure dans le modèle ou utiliser le nombre de composantes par défaut. Celui-ci est égal à 10 ou au nombre de prédicteurs dans vos données (le plus petit des deux). Etudiez le tableau des méthodes pour déterminer le nombre de composantes incluses dans le modèle par Minitab. Vous pouvez également examiner le diagramme de sélection de modèle.

Lorsque vous utilisez la méthode PLS, choisissez le modèle avec le plus petit nombre de composantes permettant d'expliquer une part suffisante de la variabilité des prédicteurs et des réponses. Pour déterminer le nombre de composantes le plus adapté pour vos données, examinez le tableau de sélection de modèle, notamment la variance X, le R2 et le R2 prévu. Le R2 prévu indique la capacité de prévision du modèle et n'est affiché que si vous effectuez une validation croisée.

Dans certains cas, vous pouvez utiliser un modèle différent de celui sélectionné par Minitab. Si vous avez utilisé la validation croisée, comparez le R2 et le R2 prévu. Par exemple, le fait de supprimer deux composantes du modèle ne diminue que légèrement le R2 prévu. Du fait que le R2 prévu n'a diminué que légèrement, le modèle n'est pas surajusté et vous pouvez décider qu'il convient mieux à vos données.

Une valeur de R2 prévu considérablement inférieure à R2 peut être un signe de surajustement du modèle. Un modèle est dit surajusté lorsqu'il inclut des termes ou des composantes pour des effets qui ne sont pas importants dans la population, bien qu'ils semblent importants dans les données échantillons. Le modèle est alors spécialement ajusté aux données des échantillons, mais risque ne pas être utile pour effectuer des prévisions concernant la population entière.

Si vous n'utilisez pas la validation croisée, vous pouvez examiner les valeurs de variance X dans le tableau de sélection de modèle pour déterminer la part de la variance de la réponse expliquée par chaque modèle.

Méthode

Validation croiséeOmettre une validation
Composantes à évaluerDéfinir
Nombre de composantes évaluées10
Nombre de composantes sélectionnées4

Méthode

Validation croiséeAucun
Composantes à calculerDéfinir
Nombre de composantes calculées10
Résultat principal : nombre de composantes

Dans ces résultats, la validation croisée a été utilisée dans le premier tableau de méthode et le modèle avec 4 composantes a été sélectionné. Dans le second tableau de méthode, la validation croisée n'a pas été utilisée. Minitab utilise le modèle avec 10 composantes (paramètre par défaut).

Sélection et validation de modèle pour Arôme

ComposantesVariance XErreurR carréSomCar-ErrPrévR carré
(prév)
10,15884914,93890,63743523,34390,433444
20,44226712,29660,70156421,09360,488060
30,5229777,97610,80642019,61360,523978
40,5945466,65190,83855918,16830,559056
5  5,85300,85794819,26750,532379
6  5,01230,87835222,37390,456988
7  4,31090,89537424,00410,417421
8  4,08660,90081824,77360,398747
9  3,58860,91290424,90900,395460
10  3,27500,92051624,82930,397395
Résultat principal : variance X, R carré et R carré (prév)

Dans ces résultats, Minitab a sélectionné le modèle à 4 composantes qui a un R2 prévu d'environ 56 %. D'après la variance X, le modèle à 4 composantes explique presque 60 % de la variance des prédicteurs. Lorsque le nombre de composantes augmente, le R2 suit la même tendance, tandis que le R2 prévu diminue ; cela indique que les modèles avec plus de composantes sont susceptibles d'être surajustés.

Etape 2 : Déterminer si les données contiennent des valeurs aberrantes ou des points d'effet de levier

Pour déterminer si votre modèle est bien ajusté aux données, vous devez examiner les diagrammes à la recherche de valeurs aberrantes, de points d'effet de levier et d'autres schémas. Si vos données contiennent beaucoup de valeurs aberrantes ou de points d'effet de levier, le modèle ne fournit peut-être pas de prévisions valides.

Vous pouvez examiner les diagrammes des valeurs résiduelles, notamment le diagramme des valeurs résiduelles en fonction de l'effet de levier. Dans ce dernier, recherchez les éléments suivants :
  • Valeurs aberrantes : observations comportant des valeurs résiduelles normalisées élevées, qui se trouvent hors des lignes de référence horizontales dans le diagramme.
  • Points d'effet de levier : les observations avec des valeurs d'effet de levier ont des scores X éloignés de zéro et se situent à droite de la ligne de référence verticale.

Pour plus d'informations sur le diagramme des valeurs résiduelles en fonction de l'effet de levier, reportez-vous à la rubrique Graphiques pour la fonction Régression par les moindres carrés partiels.

Dans ce diagramme, deux points peuvent être considérés comme des points d'effet de levier, car ils sont situés à droite de la ligne verticale. Trois points peuvent être considérés comme des valeurs aberrantes, car ils se situent en dessus et en dessous des lignes de référence horizontales. Vous pouvez examiner ces points pour déterminer la manière dont ils influent sur l'ajustement du modèle.
Vous pouvez également examiner le diagramme des réponses pour déterminer à quel point votre modèle ajuste et prévoit chaque observation. Lors de l'examen de ce diagramme, recherchez les éléments suivants :
  • Un motif non linéaire des points, ce qui indique que le modèle n'ajuste ou ne prévoit pas correctement les données.
  • De grandes différences dans les valeurs ajustées et les valeurs à validation croisée, ce qui indique un point d'effet de levier (dans le cas d'une validation croisée).
Dans ce diagramme, les points suivent généralement un schéma linéaire, indiquant que le modèle est correctement ajusté aux données. Les points figurant dans le diagramme des valeurs résiduelles en fonction de l'effet de levier ci-dessus ne semblent pas poser problème dans ce diagramme.
Dans ce diagramme, la validation croisée a été utilisée afin que les valeurs ajustées et les valeurs ajustées à validation croisée apparaissent. Le diagramme n'affiche pas de grandes différences entre les réponses ajustées et les réponses ajustées à validation croisée.

Etape 3 : Valider le modèle PLS avec un fichier de données de test

La régression PLS est souvent effectuée en deux étapes. La première étape, parfois appelée "entraînement", passe par le calcul d'un modèle de régression PLS pour un fichier de données échantillons (données d'entraînement). La seconde étape consiste à valider ce modèle avec un autre ensemble de données, souvent appelées "données de test". Pour valider le modèle avec le fichier de données de test, indiquez les colonnes des données de test dans la sous-boîte de dialogue Prévision. Minitab calcule de nouvelles valeurs de réponse pour chaque observation du fichier de données de test et compare la réponse prévue à la réponse réelle. En fonction de la comparaison, Minitab calcule le R2 de test, qui indique la capacité du modèle à prévoir de nouvelles réponses. Les valeurs de R 2 de test élevées indiquent que le modèle dispose d'une plus grande capacité de prévision.

Si vous utilisez la validation croisée, comparez le R2 au R2 carré prévu. Idéalement, ces valeurs doivent être similaires. Un R2 de test significativement inférieur au R2 prévu indique que la validation croisée est trop optimiste à propos de la capacité de prévision du modèle ou que les deux échantillons de données sont issus de populations différentes.

Si le fichier de données de test ne comprend pas de valeurs de réponse, Minitab ne calcule pas le R2 de test.

Réponse prévue pour les nouvelles observations avec le modèle pour Lipides

LigneValeur
ajustée
ErT ajustIC à 95 %IP à 95 %
118,73720,378459(17,9740; 19,5004)(16,8612; 20,6132)
215,37820,362762(14,6466; 16,1098)(13,5149; 17,2415)
320,78380,491134(19,7933; 21,7743)(18,8044; 22,7632)
414,36840,544761(13,2698; 15,4670)(12,3328; 16,4040)
516,60160,348485(15,8988; 17,3044)(14,7494; 18,4538)
620,74710,472648(19,7939; 21,7003)(18,7861; 22,7080)
R carré du test : 0,762701
Résultat principal : R 2 de test

Dans ces résultats, le R2 de test est d'environ 76 %. Le R2 prévu pour le fichier de données d'origine est d'environ 78 %. Vous pouvez en conclure que le modèle dispose d'une capacité de prévision adaptée étant donné que ces valeurs sont similaires.