Le diagramme de sélection des modèles est un nuage de points des valeurs de R2 et de R2 prévu en tant que fonction du nombre de composantes ajustées ou à validation croisée. Il s'agit d'une représentation graphique du tableau de sélection et validation de modèle. Si vous n'optez pas pour la validation croisée, les valeurs de R2 prévu ne figurent pas dans votre diagramme. Minitab fournit un diagramme de sélection de modèle par réponse.
A l'aide de ce diagramme, comparez la puissance de modélisation et de prévision des différents modèles pour déterminer le nombre de composantes adapté à conserver dans votre modèle. La ligne verticale du diagramme indique le nombre de composantes que Minitab a sélectionnées pour le modèle PLS.
Le diagramme des réponses est un nuage de points des valeurs ajustées en fonction des réponses réelles. Si vous réalisez une validation croisée, le diagramme inclut également les valeurs ajustées en fonction des valeurs ajustées à validation croisée. Minitab propose un diagramme de réponses pour chaque réponse.
Un modèle offrant une excellente capacité de prédiction a souvent une pente de 1 et coupe l'axe des Y à l'origine.
Le diagramme des coefficients est un nuage de points projeté représentant les coefficients non normalisés de chaque prédicteur. Minitab propose un diagramme des coefficients pour chaque réponse.
Utilisez le diagramme des coefficients, ainsi que la sortie des coefficients de régression, pour comparer le signe et l'ampleur des coefficients de chaque prédicteur. Le diagramme facilite l'identification des prédicteurs selon leur importance dans le modèle.
Du fait que le diagramme n'affiche que des coefficients non normalisés, vous pouvez uniquement effectuer des comparaisons parmi l'ampleur des relations entre prédicteurs et réponse si les prédicteurs sont à la même échelle (des données spectrales, par exemple). Sinon, utilisez le diagramme des coefficients normalisés ou le diagramme de chargement pour comparer les pondérations des prédicteurs employés pour le calcul des composantes.
Le diagramme des coefficients est un nuage de points projeté représentant les coefficients normalisés de chaque prédicteur. Minitab propose un diagramme des coefficients normalisés pour chaque réponse.
Utilisez ce diagramme ainsi que la sortie des coefficients de régression pour comparer le signe et l'ampleur des coefficients de chaque prédicteur. Le diagramme facilite l'identification des prédicteurs selon leur importance dans le modèle.
Du fait que le diagramme affiche des coefficients normalisés, vous pouvez effectuer des comparaisons parmi l'ampleur des relations entre les prédicteurs et la réponse même si les prédicteurs ne sont pas à la même échelle.
Si les prédicteurs sont à la même échelle, les schémas des coefficients des diagrammes normalisés et non normalisés présentent des similitudes. Il se peut que ces diagrammes ne paraissent pas identiques, cependant. En effet, les prédicteurs sont fortement corrélés, ce qui provoque de l'instabilité, et il existe des différences entre les écarts types des échantillons et les écarts types des populations.
Le diagramme des distances est un nuage de points de la distance entre le modèle X et le modèle Y de chaque observation. Distances de Y mesure à quel point une observation est ajustée dans l'espace y. Distances de X mesure à quel point une observation est ajustée dans l'espace x.
Lors de l'examen de ce diagramme, recherchez des points dont les distances sont supérieures aux autres points de l'axe des X ou de l'axe des Y. Les observations présentant des distances supérieures par rapport au modèle Y sont peut-être des valeurs aberrantes et les observations présentant des distances supérieures par rapport au modèle X sont peut-être des points d'effet de levier.
L'histogramme des valeurs résiduelles normalisées montre la distribution des valeurs résiduelles normalisées pour toutes les observations.
Schéma | Ce que le schéma indique |
---|---|
Longue extrémité dans une direction | Asymétrie |
Barre éloignée des autres | Une valeur aberrante |
Comme l'apparence de l'histogramme dépend du nombre d'intervalles utilisés pour regrouper les données, n'évaluez pas la normalité des valeurs résiduelles à l'aide d'un histogramme. Utilisez plutôt une droite de Henry. Les résultats de l'histogramme sont plus pertinents lorsque vous avez au moins 20 points de données. Si l'échantillon est trop petit, les barres de l'histogramme ne contiennent pas assez de points de données pour afficher l'asymétrie ou les valeurs aberrantes de manière fiable.
La droite de Henry des valeurs résiduelles affiche les valeurs résiduelles normalisées en fonction de leurs valeurs attendues lorsque la loi de distribution est normale.
Utilisez la droite de Henry des valeurs résiduelles afin de vérifier l'hypothèse selon laquelle les valeurs résiduelles sont normalement distribuées. La droite de Henry des valeurs résiduelles doit suivre approximativement une ligne droite.
Si vous observez une tendance non normale, utilisez les autres graphiques des valeurs résiduelles pour rechercher tout autre problème éventuel avec le modèle, tel que des termes manquants ou l'effet d'un ordre temporel. Si les valeurs résiduelles ne suivent pas une loi normale, les intervalles de confiance et les valeurs de p peuvent être inexacts.
Le diagramme des valeurs résiduelles en fonction des valeurs ajustées représente les valeurs résiduelles normalisées sur l'axe des Y et les valeurs ajustées sur l'axe des X.
Utilisez le diagramme des valeurs résiduelles en fonction des valeurs ajustées pour vérifier l'hypothèse selon laquelle les valeurs résiduelles suivent une loi normale et ont une variance constante. Dans l'idéal, les points doivent être répartis aléatoirement des deux côtés de 0, sans schéma reconnaissable.
Schéma | Ce que le schéma indique |
---|---|
Eparpillement ou répartition déséquilibrée des valeurs résiduelles en fonction des valeurs ajustées | Variance non constante |
Curviligne | Un terme d'ordre supérieur manquant |
Un point très éloigné de zéro | Une valeur aberrante |
Un point éloigné des autres points dans le sens des x | Un point influent |
Le diagramme des valeurs résiduelles en fonction de l'effet de levier est un nuage de points des valeurs résiduelles normalisées en fonction de l'effet de levier de chaque observation.
Le diagramme des valeurs résiduelles en fonction de l'ordre affiche les valeurs résiduelles normalisées dans l'ordre dans lequel elles ont été collectées.
Le diagramme des scores est un nuage de points des scores X tracé à partir des deux premières composantes du modèle.
Si les deux premières composantes expliquent en grande partie la variance des prédicteurs, la configuration des points de ce tracé reflète fidèlement la configuration multidimensionnelle d'origine de vos données. Pour vérifier à quel point le modèle explique la variance des prédicteurs, examinez les valeurs de variance X dans le tableau Sélection et validation de modèle. Si la valeur de variance X est élevée, le modèle explique une variance de signification des prédicteurs.
Si votre modèle contient plus de 2 composantes, vous souhaiterez peut-être représenter les scores X des autres composantes à l'aide de la fonction Nuage de points. Pour cela, stockez la matrice de scores X, puis copiez-la en colonnes à l'aide de . Si votre modèle ne possède qu'une composante, ce graphique ne figure pas dans la sortie.
Le diagramme des scores 3D est un nuage de points tridimensionnel des scores X tracé à partir des trois premières composantes du modèle. Si les trois premières composantes illustrent en grande partie la variance des prédicteurs, la configuration des points de ce tracé reflète fidèlement la configuration multidimensionnelle d'origine de vos données. Pour vérifier à quel point le modèle explique la variance, examinez les valeurs de variance X dans le tableau Sélection et validation de modèle. Si la valeur de variance X est élevée, le modèle explique une variance de signification des prédicteurs.
Vous devez également utiliser les outils de graphiques 3D qui permettent de faire pivoter le graphique afin de l'afficher sous des perspectives différentes. Ces outils fournissant une image plus complète de vos données, vous pouvez identifier plus précisément les points d'effet de levier et les groupes de points.
Le diagramme des contributions est un nuage de points des prédicteurs projeté sur les première et deuxième composantes du modèle. Il représente les contributions X de la seconde composante par rapport aux contributions X de la première. Chaque point, représentant un prédicteur, est connecté à (0,0) sur le graphique.
Le graphique de contribution illustre l'importance des prédicteurs par rapport aux deux premières composantes et s'avère particulièrement utile en cas de différence entre les échelles respectives des prédicteurs. Si les composantes expliquent en grande partie la variance X, représentée dans le tableau Sélection et validation de modèle, le graphique des contributions indique l'importance des prédicteurs dans l'espace X. Lorsque vous évaluez l'importance des prédicteurs dans l'ensemble du modèle, vous devez également mesurer l'incidence de la variance sur les composantes dans les réponses. Pour le vérifier, examinez les valeurs de R2 et de R2 prévu dans le tableau Sélection et validation de modèle.
Si votre modèle contient plus de 2 composantes, vous avez la possibilité de tracer les contributions X des autres composantes à l'aide de l'option Nuage de points. Pour cela, stockez la matrice de contributions X, puis copiez-la en colonnes à l'aide de .
Le diagramme X des valeurs résiduelles est un graphique linéaire des valeurs résiduelles X en fonction des prédicteurs. Chaque ligne représente une observation et possède autant de points que de prédicteurs.
Le graphique matriciel diagonal des valeurs résiduelles X permet d'identifier les observations ou les prédicteurs que le modèle décrit mal. Ce graphique est particulièrement utile avec les prédicteurs de même échelle.
Utilisez le graphique matriciel diagonal des valeurs résiduelles X pour étudier les schémas généraux des valeurs résiduelles et identifier les zones problématiques. Examinez ensuite les valeurs résiduelles X du résultat pour déterminer les observations et les prédicteurs que le modèle décrit mal.
Le diagramme X des valeurs calculées est un graphique linéaire des valeurs calculées X en fonction des prédicteurs. Chaque ligne représente une observation et possède autant de points que de prédicteurs.
Ce graphique permet d'identifier les observations ou les prédicteurs que le modèle décrit mal. Ce graphique est particulièrement utile avec les prédicteurs de même échelle.
Le diagramme X des valeurs calculées complète le diagramme des valeurs résiduelles X. Le cumul des deux graphiques produit un graphique des valeurs de prédicteur d'origine. Un prédicteur dont les valeurs calculées X fortement différentes des valeurs X d'origine n'est pas correctement décrit par le modèle.