Valeurs ajustées et diagnostics pour la fonction Analyser la variabilité

Obtenez des définitions et bénéficiez de conseils en matière d'interprétation pour chaque statistique fournie dans le tableau des valeurs ajustées et des diagnostics.

Valeur ajustée

Les valeurs ajustées sont également appelées . Les valeurs ajustées sont des estimations ponctuelles de l'écart type de la réponse des valeurs des prédicteurs. Les valeurs des prédicteurs sont également appelées valeurs de x.

Interprétation

Les valeurs ajustées sont calculées en indiquant les valeurs de x correspondant à chaque observation de l'ensemble de données dans l'équation du modèle.

Par exemple, si l'équation est ln (y) = ln (5 + 10x), la valeur ajustée pour x = 2 est 3,21888 (ln (5 + 10(2))).

Les observations dont les valeurs ajustées sont très différentes de la valeur observée peuvent être des valeurs aberrantes. Les observations possédant des valeurs de prédicteurs aberrantes peuvent être influentes. Si Minitab détermine que vos données comprennent des valeurs aberrantes ou influentes, vos résultats comprennent le tableau Ajustements et diagnostics pour les observations aberrantes, qui indique quelles sont ces observations. Les observations ayant des valeurs résiduelles normalisées élevées suivent mal l'équation de régression proposée. Toutefois, il est normal d'obtenir quelques observations aberrantes. Par exemple, selon les critères utilisés pour définir des valeurs résiduelles normalisées élevées, vous pouvez vous attendre à ce qu'environ 5 % de vos observations soient signalées pour leur valeur résiduelle normalisée importante. Pour plus d'informations sur les valeurs aberrantes, reportez-vous à la rubrique Observations aberrantes.

Intervalle de confiance pour la réponse d'origine (IC à 95 %)

Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir l'écart type recherché pour la population qui présente les valeurs observées pour les prédicteurs ou les facteurs du modèle.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prélevez de nombreux échantillons, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :
Estimation ponctuelle
L'estimation ponctuelle est calculée à partir des données échantillons.
Marge d'erreur
La marge d'erreur définit la largeur de l'intervalle de confiance et est déterminée par la variabilité observée dans l'échantillon, l'effectif de l'échantillon et le niveau de confiance.

Interprétation

Utilisez l'intervalle de confiance afin d'évaluer l'estimation de la valeur ajustée pour les valeurs observées des variables.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend l'écart type de la population pour les valeurs spécifiées des variables de prévision ou facteurs dans le modèle. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Un grand intervalle de confiance traduit moins de certitude quant à l'écart type des futures valeurs. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon.

Valeur résiduelle de rapport

La valeur résiduelle de rapport correspond à l'écart type observé divisé par la valeur ajustée.

Ln(EcTyp)

Logarithme népérien de l'écart type de la réponse observée.

Ln(ajusté)

Logarithme népérien de l'écart type ajusté.

ErT Ln(Ajus)

L'erreur type du logarithme népérien de l'écart type ajusté estime la variation de l'écart type estimé pour les paramètres de variable spécifiés. Le calcul de l'intervalle de confiance de la réponse moyenne utilise l'erreur type de la valeur ajustée. Les erreurs types ne sont jamais négatives.

Interprétation

Utilisez l'erreur type de la valeur ajustée pour mesurer la précision de l'estimation du logarithme népérien de l'écart type. Plus l'erreur type est petite, plus l'estimation est précise.

Intervalle de confiance pour la réponse transformée (IC à 95 %)

Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir le logarithme népérien de l'écart type pour la population qui présente les valeurs observées pour les prédicteurs ou les facteurs du modèle.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prélevez de nombreux échantillons, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :
Estimation ponctuelle
L'estimation ponctuelle est calculée à partir des données échantillons.
Marge d'erreur
La marge d'erreur définit la largeur de l'intervalle de confiance et est déterminée par la variabilité observée dans l'échantillon, l'effectif de l'échantillon et le niveau de confiance.

Interprétation

Utilisez l'intervalle de confiance afin d'évaluer l'estimation de la valeur ajustée pour les valeurs observées des variables.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend le logarithme de l'écart type de la population pour les valeurs spécifiées des variables de prévision ou facteurs du modèle. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Un grand intervalle de confiance traduit moins de certitude quant à l'écart type des futures valeurs. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon.

Ln(Valeur résiduelle)

Différence entre le logarithme népérien de l'écart type de la réponse observée et le logarithme népérien de l'écart type ajusté. Il s'agit du logarithme de la valeur résiduelle de rapport.

Interprétation

La valeur résiduelle du logarithme représente la partie de la réponse observée non expliquée par le modèle. Parmi les types de valeurs résiduelles que Minitab calcule dans l'option Analyser la variabilité, ce sont les valeurs résiduelles du logarithme qui ressemblent le plus aux valeurs résiduelles standard.

Ln(Résid) normalisé

Les valeurs résiduelles normalisées pour le logarithme népérien est égal à la valeur résiduelle de logarithme divisée par son erreur type (asymptotique)

Interprétation

Les valeurs résiduelles normalisées pour le logarithme népérien permettent de détecter les valeurs aberrantes. Lorsque les valeurs de Ln(Résid) normalisé sont comprises entre −2 et 2, les données ne contiennent aucune observation aberrante.

Les valeurs résiduelles normalisées supérieures à 2 et inférieures à −2 sont généralement considérées comme élevées. Les observations signalées par Minitab suivent mal l'équation de régression proposée. Toutefois, il est normal d'obtenir quelques observations aberrantes. Par exemple, selon les critères utilisés pour définir des valeurs résiduelles normalisées élevées, vous pouvez vous attendre à ce qu'environ 5 % de vos observations soient signalées pour leur valeur résiduelle normalisée importante. Pour plus d'informations, reportez-vous à la rubrique Observations aberrantes.

Les valeurs résiduelles normalisées sont utiles, car les valeurs résiduelles brutes ne permettent pas toujours de détecter les valeurs aberrantes. La variance de chaque valeur résiduelle brute peut être différente en fonction des valeurs X qui lui sont associées. Cette variation inégale complique l'évaluation de la grandeur des valeurs résiduelles brutes. La normalisation des valeurs résiduelles résout ce problème en transformant les différentes variances selon une échelle commune.

Hi (effet de levier)

La valeur Hi, aussi appelée effet de levier, mesure la distance entre la valeur de x d'une observation et la moyenne des valeurs de x de toutes les observations d'un ensemble de données.

Interprétation

Les valeurs Hi sont comprises entre 0 et 1. Dans le tableau Ajustements et diagnostics pour les observations aberrantes, Minitab affecte un X aux observations qui présentent soit un effet de levier supérieur à 3p/n, soit à la valeur 0,99, en considérant en priorité la plus petite de ces valeurs. Dans la valeur 3p/n, p représente le nombre de coefficients du modèle et n le nombre d'observations. Les observations que Minitab signale par un "X" peuvent être influentes.

Les observations influentes ont un effet disproportionné sur le modèle et peuvent générer des résultats trompeurs. Par exemple, un coefficient pourra être statistiquement significatif ou non selon qu'un point influent est inclus ou exclus. Les observations influentes peuvent être des points à effet de levier et/ou des valeurs aberrantes.

En cas d'observation influente, déterminez si elle est due à une erreur d'entrée de données ou de mesure. Si l'observation n'est due ni à une erreur d'entrée de données, ni à une erreur de mesure, déterminez dans quelle mesure l'observation est influente. Tout d'abord, ajustez le modèle avec et sans observation. Ensuite, comparez les coefficients, les valeurs de p, le R2, et d'autres informations relatives au modèle. Si le modèle change de manière significative lorsque vous supprimez l'observation influente, examinez le modèle plus en détail pour déterminer si vous avez spécifié le modèle de façon incorrecte. Vous pouvez être amené à rassembler davantage de données pour résoudre le problème.

Distance de Cook (D)

La distance de Cook (D) mesure l'effet qu'a une observation sur un ensemble de coefficients dans un modèle linéaire. La distance de Cook prend en compte la valeur à effet de levier et la valeur résiduelle normalisée de chaque observation afin de déterminer l'effet de l'observation.

Interprétation

Les observations dont la valeur D est élevée peuvent être considérées comme influentes. L'un des critères couramment utilisés pour déterminer si une valeur D est élevée est qu'elle soit supérieure à la médiane de la loi F : F(0,5, p, n-p), où p représente le nombre de termes du modèle (constante comprise) et n le nombre d'observations. Une autre façon d'examiner les valeurs D consiste à les comparer à l'aide d'un graphique, tel qu'un diagramme des valeurs individuelles. Les observations possédant des valeurs D supérieures à la moyenne peuvent être influentes.

Les observations influentes ont un effet disproportionné sur le modèle et peuvent générer des résultats trompeurs. Par exemple, un coefficient pourra être statistiquement significatif ou non selon qu'un point influent est inclus ou exclus. Les observations influentes peuvent être des points à effet de levier et/ou des valeurs aberrantes.

En cas d'observation influente, déterminez si elle est due à une erreur d'entrée de données ou de mesure. Si l'observation n'est due ni à une erreur d'entrée de données, ni à une erreur de mesure, déterminez dans quelle mesure l'observation est influente. Tout d'abord, ajustez le modèle avec et sans observation. Ensuite, comparez les coefficients, les valeurs de p, le R2, et d'autres informations relatives au modèle. Si le modèle change de manière significative lorsque vous supprimez l'observation influente, examinez le modèle plus en détail pour déterminer si vous avez spécifié le modèle de façon incorrecte. Vous pouvez être amené à rassembler davantage de données pour résoudre le problème.

DFITS

La valeur DFITS mesure l'effet de chaque observation sur les valeurs ajustées dans un modèle linéaire. La valeur DFITS exprime approximativement le changement, en nombre d'écarts types, de la valeur ajustée lorsque chaque observation est supprimée de l'ensemble de données et que le modèle est réajusté.

Interprétation

Plus les observations ont une valeur DFITS élevée, plus il y a de chances qu'elles soient influentes. L'un des critères couramment utilisés pour déterminer si une valeur DFITS peut être considérée comme élevée, consiste à vérifier si elle est supérieure à la valeur :
TermeDescription
pnombre de termes dans le modèle
nnombre d'observations

En cas d'observation influente, déterminez si elle est due à une erreur d'entrée de données ou de mesure. Si l'observation n'est due ni à une erreur d'entrée de données, ni à une erreur de mesure, déterminez dans quelle mesure l'observation est influente. Tout d'abord, ajustez le modèle avec et sans observation. Ensuite, comparez les coefficients, les valeurs de p, le R2, et d'autres informations relatives au modèle. Si le modèle change de manière significative lorsque vous supprimez l'observation influente, examinez le modèle plus en détail pour déterminer si vous avez spécifié le modèle de façon incorrecte. Vous pouvez être amené à rassembler davantage de données pour résoudre le problème.