Interprétation de toutes les statistiques et de tous les graphiques pour la fonction Récapitulatif graphique

Obtenez des définitions et bénéficiez de conseils en matière d'interprétation pour chaque statistique fournie avec le récapitulatif graphique.

A au carré

La statistique d'ajustement d'Anderson-Darling (A au carré) mesure l'aire comprise entre la ligne ajustée (basée sur la loi normale) et la fonction de répartition empirique (basée sur les points de données). La statistique d'Anderson-Darling est le carré d'une distance ayant une pondération plus élevée aux extrémités de la distribution.

Interprétation

Minitab utilise la statistique d'Anderson-Darling pour calculer la valeur de p. La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Une valeur de p inférieure fournit des preuves plus solides par rapport à l'hypothèse nulle. Une valeur moindre pour la statistique d'Anderson-Darling indique que les données suivent plus précisément la loi normale.

valeur de p

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Une valeur de p inférieure fournit des preuves plus solides par rapport à l'hypothèse nulle.

Interprétation

Utilisez la valeur de p pour déterminer si les données ne suivent pas la loi normale.

Pour déterminer si les données ne suivent pas une loi normale, comparez la valeur de p au seuil de signification. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure que les données ne suivent pas une loi normale alors qu'elles suivent une loi normale.
Valeur de p ≤ α : les données ne suivent pas une loi normale (Rejeter H0)
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez rejeter l'hypothèse nulle et en conclure que vos données ne suivent pas une loi normale.
Valeur de p > α : vous ne pouvez pas conclure que les données ne suivent pas une loi normale (Impossible de rejeter H0)
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas rejeter l'hypothèse nulle. Vous n'êtes pas en mesure de conclure que les données ne suivent pas une loi normale

Moyenne

Elle est calculée comme la moyenne des données, c'est-à-dire la somme de toutes les observations, divisée par le nombre d'observations.

Par exemple, les temps d'attente (en minutes) de cinq clients d'une banque sont 3, 2, 4, 1 et 2. Le temps d'attente moyen est calculé comme suit :
En moyenne, un client attend 2,4 minutes avant d'être servi à cette banque.

Interprétation

Utilisez la moyenne pour décrire l'échantillon avec une seule valeur qui représente le centre des données. De nombreuses analyses statistiques utilisent la moyenne en tant que mesure standard pour le centre de la loi des données.

La médiane et la moyenne mesurent toutes les deux la tendance centrale. Les valeurs inhabituelles, appelées valeurs aberrantes, peuvent avoir davantage d'impact sur la moyenne que sur la médiane. Si vos données sont symétriques, la moyenne et la médiane sont similaires.
Symétrique
Non symétrique

Pour la loi symétrique, la moyenne (ligne bleue) et la médiane (ligne orange) sont tellement proches qu'il est difficile de distinguer les deux lignes. Toutefois, la loi non symétrique présente un asymétrie vers la droite.

EcTyp

L'écart type est la mesure la plus courante de la dispersion ou de la répartition des données sur la moyenne. Le symbole σ (sigma) est souvent utilisé pour représenter l'écart type d'une population, tandis que s sert à représenter l'écart type d'un échantillon. Une variation qui est aléatoire ou naturelle pour un procédé est souvent appelée un bruit.

Etant donné que l'écart type utilise les mêmes unités que les données, il est généralement plus facile à interpréter que la variance.

Interprétation

Utilisez l'écart type pour déterminer la dispersion des données par rapport à la moyenne. Une valeur d'écart type élevée indique que les données sont dispersées. D'une manière générale, pour une loi normale, environ 68 % des valeurs se situent dans un écart type de la moyenne, 95 % des valeurs se situent dans deux écarts types et 99,7 % des valeurs se situent dans trois écarts types.

L'écart type peut également servir à établir une référence pour estimer la variation globale d'un procédé.
Hôpital 1
Hôpital 2
Durée jusqu'à la sortie de l'hôpital

Les administrateurs de deux hôpitaux étudient le temps que passent les patients dans le service des urgences de leurs établissements jusqu'à leur sortie. Bien que ces durées moyennes soient pratiquement identiques (35 minutes), les écarts types diffèrent de manière significative. L'écart type pour l'hôpital 1 est d'environ 6. En moyenne, la durée qui s'écoule jusqu'à la sortie d'un patient présente un écart d'environ 6 minutes par rapport à la moyenne (ligne bleue). L'écart type pour l'hôpital 2 est d'environ 20. En moyenne, la durée qui s'écoule jusqu'à la sortie d'un patient présente un écart d'environ 20 minutes par rapport à la moyenne (ligne bleue).

Variance

La variance mesure le degré de dispersion des données autour de leur moyenne. Elle est égale à l'écart type au carré.

Interprétation

Plus la variance est élevée, plus les données sont dispersées.

Etant donné que la variance (σ2) représente une quantité élevée au carré, ses unités sont également élevées au carré. C'est pourquoi la variance est difficile à utiliser dans la pratique. Il est généralement plus facile d'interpréter l'écart type, car il utilise les mêmes unités que les données. Par exemple, un échantillon de temps d'attente à un arrêt de bus peut avoir une moyenne de 15 minutes et une variance de 9 minutes2. Etant donné que la variance n'utilise pas les mêmes unités que les données, elle est généralement affichée avec sa racine carrée, l'écart type. Une variance de 9 minutes2 est équivalente à un écart type de 3 minutes.

Asymétrie

L'asymétrie évalue dans quelle mesure vos données ne sont pas symétriques.

Interprétation

L'asymétrie de vos données vous permet de vous en faire une première idée.
Figure A
Figure B
Distributions symétriques ou non asymétriques

Plus des données sont symétriques, plus leur valeur d'asymétrie approche de zéro. La figure A montre des données distribuées normalement qui, par définition, présentent une asymétrie relativement faible. Si vous traciez une ligne verticale au milieu de cet histogramme de données normales, vous pourriez facilement constater que les deux côtés se reflètent l'un l'autre. Toutefois, l'absence d'asymétrie n'est pas en soi synonyme de normalité. La figure B représente une loi de distribution dont les deux côtés se reflètent également, mais les données sont loin d'être distribuées normalement.

Distributions positives ou asymétriques à droite

Les données présentant une asymétrie positive ou asymétriques à droite doivent leur appellation au fait que la "queue" de la loi de distribution pointe vers la droite et que leur valeur d'asymétrie est supérieure à 0 (ou est positive). Les données salariales présentent souvent une asymétrie de ce type : au sein d'une entreprise, de nombreux employés gagnent relativement peu et, à mesure que les salaires augmentent, le nombre d'employés concernés diminue.

Distributions négatives ou asymétriques à gauche

Les données asymétriques à gauche ou présentant une asymétrie négative doivent leur nom au fait que la "queue" de leur loi de distribution pointe vers la gauche et qu'elles génèrent une valeur d'asymétrie négative. Les données sur les taux de défaillance sont souvent asymétriques à gauche. Prenez par exemple le cas d'ampoules électriques : très peu vont griller immédiatement, la très grande majorité ayant une durée de vie assez longue.

Aplatissement

L'aplatissement indique dans quelle mesure les queues d'une loi diffèrent de la loi normale.

Interprétation

Utilisez l'aplatissement pour mieux comprendre dès le départ les caractéristiques générales de la distribution de vos données.
Référence : valeur d'aplatissement de 0

La loi normale sert de référence pour l'aplatissement. Une valeur d'applatissement de 0 indique que les données suivent parfaitement la loi de distribution normale. Une valeur d'aplatissement déviant significativement de la valeur 0 peut indiquer que les données ne sont pas distribuées normalement.

Aplatissement positif

Les données possédant une valeur d'aplatissement positive présentent des queues plus lourdes qu'avec la loi normale. Par exemple, les données qui suivent une loi t ont une valeur d'aplatissement positive. La ligne continue représente la loi normale et la ligne en pointillés représente une loi possédant une valeur d'aplatissement positive.

Aplatissement négatif

Les données ayant une valeur d'aplatissement négative présentent des queues plus légères qu'avec la loi normale. Par exemple, les données qui suivent une loi bêta avec un premier et un deuxième paramètres de forme égaux à 2 ont une valeur d'aplatissement négative. La ligne continue représente la loi normale et la ligne en pointillés représente une loi possédant une valeur d'aplatissement négative.

N

Nombre de valeurs présentes dans votre échantillon.

Dans cet exemple, 141 observations ont été relevées.
Dénombrement total N N*
149 141 8

Minimum

Le minimum est la valeur de données la plus petite.

Dans ces données, le minimum est de 7.

13 17 18 19 12 10 7 9 14

Interprétation

Utilisez le minimum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la répartition de vos données consiste à comparer le minimum et le maximum. Si la valeur minimum est très basse, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.

1er quartile

Les quartiles sont les trois valeurs (1er quartile à 25 % (Q1), deuxième quartile à 50 % (Q2 ou médiane) et troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.

Le 1er quartile est le 25e percentile et indique que 25 % des données sont inférieures ou égales à cette valeur.

Pour ces données ordonnées, le 1er quartile (Q1) est 9,5. Cela signifie que 25 % des données sont inférieures ou égales à 9,5.

Médiane

La médiane représente le milieu de l'ensemble de données. Ce point de milieu est celui qui sépare les observations en deux moitiés égales, l'une supérieure à la valeur, l'autre inférieure. La médiane est déterminée en classant les observations, puis en prenant l'observation de rang [N + 1] / 2 dans l'ordre obtenu. Si le nombre d'observations est pair, la médiane est égale à la moyenne des observations de rang N/2 et [N/2] + 1.

Pour les données ordonnées ci-dessous, la médiane est 13. Autrement dit, la moitié des valeurs est inférieure ou égale à 13 et l'autre moitié est supérieure ou égale à 13. Si vous ajoutez une autre observation égale à 20, la médiane est de 13,5, soit la moyenne entre la 5e observation (13) et la 6e observation (14).

Interprétation

La médiane et la moyenne mesurent toutes les deux la tendance centrale. Les valeurs inhabituelles, appelées valeurs aberrantes, peuvent avoir davantage d'impact sur la moyenne que sur la médiane. Si vos données sont symétriques, la moyenne et la médiane sont similaires.
Symétrique
Non symétrique

Pour la loi symétrique, la moyenne (ligne bleue) et la médiane (ligne orange) sont tellement proches qu'il est difficile de distinguer les deux lignes. Toutefois, la loi non symétrique présente un asymétrie vers la droite.

3e quartile

Les quartiles sont les trois valeurs (1er quartile à 25 % (Q1), deuxième quartile à 50 % (Q2 ou médiane) et troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.

Le troisième quartile est le 75e percentile et indique que 75 % des données sont inférieures ou égales à cette valeur.

Pour ces données ordonnées, le troisième quartile (Q3) est 17,5. Cela signifie que 75 % des données sont inférieures ou égales à 17,5.

Maximum

Le maximum est la valeur de la donnée la plus importante.

Dans ces données, le maximum est 19.

13 17 18 19 12 10 7 9 14

Interprétation

Utilisez le maximum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la dispersion de vos données consiste à comparer le minimum et le maximum. Si la valeur maximale est très élevée, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.

Intervalle de confiance

L'intervalle de confiance fournit une étendue de valeurs probables pour le paramètre de population. Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Toutefois, si vous répétiez l'échantillonnage de nombreuses fois, un certain pourcentage des intervalles de confiance ou bornes obtenus contiendrait le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance ou bornes contenant le paramètre est le niveau de confiance de l'intervalle. Par exemple, un niveau de confiance de 95 % indique que, sur 100 échantillons pris de façon aléatoire parmi la population, environ 95 de ces échantillons devraient produire des intervalles contenant le paramètre de population.

Une borne supérieure définit une valeur à laquelle le paramètre de population est susceptible d'être inférieur. Une borne inférieure définit une valeur à laquelle le paramètre de population est susceptible d'être supérieur.

L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon. Pour plus d'informations, reportez-vous à la rubrique Obtenir un intervalle de confiance plus précis.

Dans ces résultats, les intervalles de confiance indiquent que vous pouvez être sûr à 95 % des éléments suivants :
  • La moyenne de la population pour les mesures de couples est comprise entre 19,710 et 22,819.
  • La médiane de la population pour les mesures de couples est comprise entre 17 et 21,521.
  • L'écart type de la population pour les mesure de couples est compris entre 5,495 et 7,729.

Histogramme

Un histogramme divise les valeurs des échantillons en plusieurs intervalles et représente l'effectif des valeurs contenues dans chaque intervalle par une barre.

Interprétation

Utilisez un histogramme pour évaluer la forme et la dispersion des données. Les histogrammes sont plus adaptés lorsque l'effectif d'échantillon est supérieur à 20.

Données asymétriques

Vous pouvez utiliser un histogramme des données avec courbe normale pour évaluer la normalité de vos données. Une loi normale est symétrique et en forme de cloche. Il est souvent difficile d'évaluer la normalité avec de petits échantillons. Un diagramme de probabilité est le meilleur moyen de déterminer l'ajustement de la loi.

Ajustement correct
Ajustement incorrect
Valeurs aberrantes

Les valeurs aberrantes, qui sont des valeurs de données très éloignées des autres valeurs de données, peuvent avoir une incidence importante sur les résultats de votre analyse. En général, les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.

Sur un histogramme, des barres isolées à une extrémité ou l'autre du graphique indiquent de possibles valeurs aberrantes.

Essayez de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Supprimez éventuellement les valeurs de données associées à des événements anormaux et uniques (aussi appelés causes spéciales). Ensuite, répétez l'analyse. Pour plus d'informations, reportez-vous à la rubrique Identification des valeurs aberrantes.

Données multimodales

Les données multimodales présentent plusieurs pics, également appelés modes. Les données multimodales indiquent souvent que des variables importantes ne sont pas encore représentées.

Simple
Avec groupes

Par exemple, un responsable de banque collecte des données de temps d'attente et crée un histogramme simple. L'histogramme présente deux pics. Après examen, le responsable détermine que le temps d'attente est plus court pour les clients qui encaissent des chèques que pour ceux qui font des demandes de prêt sur valeur domiciliaire. Le responsable ajoute une variable de groupe pour la tâche client, puis crée un histogramme avec des groupes.

Si des informations supplémentaires vous permettent de classer les observations en groupes, vous pouvez créer une variable de groupe avec ces informations. Vous pouvez ensuite créer le graphique avec des groupes pour déterminer si la variable de groupe explique les pics dans les données.

Boîte à moustaches

Une boîte à moustaches fournit un récapitulatif graphique de la loi de distribution d'un échantillon. La boîte à moustaches indique la forme, la tendance centrale et la variabilité des données.

Interprétation

Utilisez une boîte à moustaches pour examiner la dispersion des données et pour détecter d'éventuelles valeurs aberrantes. Les boîtes à moustaches sont plus adaptées lorsque l'effectif d'échantillon est supérieur à 20.

Données asymétriques

Examinez de la dispersion des données pour déterminer si elles semblent asymétriques. Lorsque les données sont asymétriques, la majorité d'entre elles sont situées sur le côté supérieur ou inférieur du graphique. En général, l'asymétrie est plus facile à détecter avec un histogramme ou une boîte à moustaches.

Asymétrie à droite
Asymétrie à gauche

La boîte à moustaches avec des données asymétriques à droite illustre des temps d'attente. La plupart des temps d'attente sont relativement courts, seuls certains sont longs. La boîte à moustaches avec des données asymétriques à gauche représente des données de temps de défaillance. Quelques éléments rencontrent une défaillance immédiatement, mais pour bien plus d'entre eux, elle survient plus tard.

Valeurs aberrantes

Les valeurs aberrantes, qui sont des valeurs de données très éloignées des autres valeurs de données, peuvent avoir une incidence importante sur les résultats de votre analyse. En général, les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.

Sur une boîte à moustaches, les astérisques (*) indiquent les valeurs aberrantes.

Essayez de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Supprimez éventuellement les valeurs de données associées à des événements anormaux et uniques (aussi appelés causes spéciales). Ensuite, répétez l'analyse. Pour plus d'informations, reportez-vous à la rubrique Identification des valeurs aberrantes.