Qu'est-ce que la validation croisée ?

La validation croisée calcule la capacité de prévision que possèdent les modèles potentiels pour vous aider à déterminer le nombre de composantes à conserver dans votre modèle. La validation croisée est recommandée si vous ne connaissez pas le nombre optimal de composantes. Quand les données contiennent plusieurs variables de réponse, Minitab valide les composantes de toutes les réponses à la fois.

Méthodes de validation croisée

Minitab peut utiliser trois méthodes différentes pour la validation croisée :
Omettre une validation
Calcule les modèles potentiels en excluant une observation à la fois. Pour les grands ensembles de données, cette méthode peut prendre beaucoup de temps car elle recalcule les modèles autant de fois qu'il y a d'observations.
Omettre un groupe de cette taille
Calcule les modèles en excluant plusieurs observations à la fois, ce qui réduit le nombre de nouveaux calculs du modèle. Cette méthode est plus adaptée aux ensembles de données volumineux.
Omettre comme indiqué dans la colonne
Calcule les modèles, en excluant en même temps les observations avec des chiffres similaires dans la colonne des identificateurs de groupes que vous créez dans la feuille de calcul. Cette méthode permet de préciser les observations à omettre en même temps. Par exemple, si la colonne des identificateurs de groupes comprend les chiffres 1, 2 et 3, toutes les observations qui comprennent le chiffre 1 sont omises ensemble et le modèle est recalculé. Ensuite, toutes les observations comprenant le chiffre 2 sont omises, et ainsi de suite. Dans ce cas, le modèle est recalculé trois fois au total. La colonne des identificateurs de groupes doit avoir la même longueur que vos colonnes de réponses et de prédicteurs, et ne doit pas contenir de valeurs manquantes.

Procédure de validation croisée

Pour chaque modèle potentiel, Minitab effectue les opérations suivantes :
  1. Il omet une observation ou un groupe d'observations, selon la méthode de validation croisée.
  2. Il recalcule le modèle sans l'observation ou le groupe d'observations.
  3. Il prévoit la réponse ou les valeurs ajustées à validation croisée, pour l'observation ou le groupe d'observations omises à l'aide du modèle recalculé et calcule la valeur résiduelle à validation croisée.
  4. Il répète les étapes 1 à 3 jusqu'à ce que toutes les observations soient omises et ajustées.
  5. Il calcule la somme des carrés des erreurs de prévision (SomCarr-ErrPrév) et des valeurs du R2 prévu.

Après avoir effectué les étapes 1 à 5 pour chaque modèle, Minitab sélectionne le nombre de composantes produisant la valeur de R2 prévu la plus élevée et la valeur de somme des carrés des erreurs de prévision la plus basse. Avec plusieurs variables de réponse, Minitab sélectionne le modèle avec la valeur de R2 prévu moyenne la plus élevée et la valeur de somme des carrés des erreurs de prévision moyenne la plus faible.

Si vous n'utilisez pas la validation croisée, Minitab définit le nombre de composantes sur 10 ou sur le nombre de prédicteurs du modèle, selon la valeur la plus faible.

Statistiques de validation croisée

Lorsque vous effectuez une validation croisée, Minitab affiche un tableau récapitulatif supplémentaire qui comprend les statistiques suivantes :
Valeurs ajustées à validation croisée

Dans la régression PLS, la valeur ajustée à validation croisée est la réponse prévue pour chaque observation de votre fichier de données, calculée individuellement de manière à ce que chaque observation puisse être exclue du modèle employé pour le calcul de la réponse prévue de cette observation. Les valeurs ajustées à validation croisée sont calculées lors de la validation croisée et varient selon le nombre d'observations omises à chaque nouveau calcul du modèle.

Utilisez les valeurs ajustées à validation croisée afin de déterminer dans quel mesure votre modèle permet de prévoir les données. Les valeurs ajustées à validation croisée sont semblables aux valeurs ajustées ordinaires, indiquant à quel point votre modèle est ajusté aux données.

Valeurs résiduelles à validation croisée

Dans la régression PLS, les valeurs résiduelles à validation croisée sont les différences entre les réponses réelles et les valeurs ajustées à validation croisée. La valeur résiduelle à validation croisée varie selon le nombre d'observations omises à chaque nouveau calcul du modèle lors de la validation croisée.

Les valeurs résiduelles mesurent la capacité de prévision de votre modèle. Minitab utilise les valeurs résiduelles à validation croisée pour calculer la statistique SomCar-ErrPrév.