La statistique d'ajustement d'Anderson-Darling (A au carré) mesure l'aire comprise entre la ligne ajustée (basée sur la loi normale) et la fonction de répartition empirique (basée sur les points de données). La statistique d'Anderson-Darling est le carré d'une distance ayant une pondération plus élevée aux extrémités de la distribution.
Minitab utilise la statistique d'Anderson-Darling pour calculer la valeur de p. La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Une valeur de p inférieure fournit des preuves plus solides par rapport à l'hypothèse nulle. Une valeur moindre pour la statistique d'Anderson-Darling indique que les données suivent plus précisément la loi normale.
La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Une valeur de p inférieure fournit des preuves plus solides par rapport à l'hypothèse nulle.
Utilisez la valeur de p pour déterminer si les données ne suivent pas la loi normale.
Elle est calculée comme la moyenne des données, c'est-à-dire la somme de toutes les observations, divisée par le nombre d'observations.
Utilisez la moyenne pour décrire l'échantillon avec une seule valeur qui représente le centre des données. De nombreuses analyses statistiques utilisent la moyenne en tant que mesure standard pour le centre de la loi des données.
Pour la loi symétrique, la moyenne (ligne bleue) et la médiane (ligne orange) sont tellement proches qu'il est difficile de distinguer les deux lignes. Toutefois, la loi non symétrique présente un asymétrie vers la droite.
L'écart type est la mesure la plus courante de la dispersion ou de la répartition des données sur la moyenne. Le symbole σ (sigma) est souvent utilisé pour représenter l'écart type d'une population, tandis que s sert à représenter l'écart type d'un échantillon. Une variation qui est aléatoire ou naturelle pour un procédé est souvent appelée un bruit.
Etant donné que l'écart type utilise les mêmes unités que les données, il est généralement plus facile à interpréter que la variance.
Utilisez l'écart type pour déterminer la dispersion des données par rapport à la moyenne. Une valeur d'écart type élevée indique que les données sont dispersées. D'une manière générale, pour une loi normale, environ 68 % des valeurs se situent dans un écart type de la moyenne, 95 % des valeurs se situent dans deux écarts types et 99,7 % des valeurs se situent dans trois écarts types.
Les administrateurs de deux hôpitaux étudient le temps que passent les patients dans le service des urgences de leurs établissements jusqu'à leur sortie. Bien que ces durées moyennes soient pratiquement identiques (35 minutes), les écarts types diffèrent de manière significative. L'écart type pour l'hôpital 1 est d'environ 6. En moyenne, la durée qui s'écoule jusqu'à la sortie d'un patient présente un écart d'environ 6 minutes par rapport à la moyenne (ligne bleue). L'écart type pour l'hôpital 2 est d'environ 20. En moyenne, la durée qui s'écoule jusqu'à la sortie d'un patient présente un écart d'environ 20 minutes par rapport à la moyenne (ligne bleue).
La variance mesure le degré de dispersion des données autour de leur moyenne. Elle est égale à l'écart type au carré.
Plus la variance est élevée, plus les données sont dispersées.
Etant donné que la variance (σ2) représente une quantité élevée au carré, ses unités sont également élevées au carré. C'est pourquoi la variance est difficile à utiliser dans la pratique. Il est généralement plus facile d'interpréter l'écart type, car il utilise les mêmes unités que les données. Par exemple, un échantillon de temps d'attente à un arrêt de bus peut avoir une moyenne de 15 minutes et une variance de 9 minutes2. Etant donné que la variance n'utilise pas les mêmes unités que les données, elle est généralement affichée avec sa racine carrée, l'écart type. Une variance de 9 minutes2 est équivalente à un écart type de 3 minutes.
L'asymétrie évalue dans quelle mesure vos données ne sont pas symétriques.
Plus des données sont symétriques, plus leur valeur d'asymétrie approche de zéro. La figure A montre des données distribuées normalement qui, par définition, présentent une asymétrie relativement faible. Si vous traciez une ligne verticale au milieu de cet histogramme de données normales, vous pourriez facilement constater que les deux côtés se reflètent l'un l'autre. Toutefois, l'absence d'asymétrie n'est pas en soi synonyme de normalité. La figure B représente une loi de distribution dont les deux côtés se reflètent également, mais les données sont loin d'être distribuées normalement.
Les données présentant une asymétrie positive ou asymétriques à droite doivent leur appellation au fait que la "queue" de la loi de distribution pointe vers la droite et que leur valeur d'asymétrie est supérieure à 0 (ou est positive). Les données salariales présentent souvent une asymétrie de ce type : au sein d'une entreprise, de nombreux employés gagnent relativement peu et, à mesure que les salaires augmentent, le nombre d'employés concernés diminue.
Les données asymétriques à gauche ou présentant une asymétrie négative doivent leur nom au fait que la "queue" de leur loi de distribution pointe vers la gauche et qu'elles génèrent une valeur d'asymétrie négative. Les données sur les taux de défaillance sont souvent asymétriques à gauche. Prenez par exemple le cas d'ampoules électriques : très peu vont griller immédiatement, la très grande majorité ayant une durée de vie assez longue.
L'aplatissement indique dans quelle mesure les queues d'une loi diffèrent de la loi normale.
La loi normale sert de référence pour l'aplatissement. Une valeur d'applatissement de 0 indique que les données suivent parfaitement la loi de distribution normale. Une valeur d'aplatissement déviant significativement de la valeur 0 peut indiquer que les données ne sont pas distribuées normalement.
Les données possédant une valeur d'aplatissement positive présentent des queues plus lourdes qu'avec la loi normale. Par exemple, les données qui suivent une loi t ont une valeur d'aplatissement positive. La ligne continue représente la loi normale et la ligne en pointillés représente une loi possédant une valeur d'aplatissement positive.
Les données ayant une valeur d'aplatissement négative présentent des queues plus légères qu'avec la loi normale. Par exemple, les données qui suivent une loi bêta avec un premier et un deuxième paramètres de forme égaux à 2 ont une valeur d'aplatissement négative. La ligne continue représente la loi normale et la ligne en pointillés représente une loi possédant une valeur d'aplatissement négative.
Nombre de valeurs présentes dans votre échantillon.
Dénombrement total | N | N* |
---|---|---|
149 | 141 | 8 |
Le minimum est la valeur de données la plus petite.
Dans ces données, le minimum est de 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilisez le minimum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la répartition de vos données consiste à comparer le minimum et le maximum. Si la valeur minimum est très basse, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.
Les quartiles sont les trois valeurs (1er quartile à 25 % (Q1), deuxième quartile à 50 % (Q2 ou médiane) et troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.
Le 1er quartile est le 25e percentile et indique que 25 % des données sont inférieures ou égales à cette valeur.
Pour ces données ordonnées, le 1er quartile (Q1) est 9,5. Cela signifie que 25 % des données sont inférieures ou égales à 9,5.
La médiane représente le milieu de l'ensemble de données. Ce point de milieu est celui qui sépare les observations en deux moitiés égales, l'une supérieure à la valeur, l'autre inférieure. La médiane est déterminée en classant les observations, puis en prenant l'observation de rang [N + 1] / 2 dans l'ordre obtenu. Si le nombre d'observations est pair, la médiane est égale à la moyenne des observations de rang N/2 et [N/2] + 1.
Pour les données ordonnées ci-dessous, la médiane est 13. Autrement dit, la moitié des valeurs est inférieure ou égale à 13 et l'autre moitié est supérieure ou égale à 13. Si vous ajoutez une autre observation égale à 20, la médiane est de 13,5, soit la moyenne entre la 5e observation (13) et la 6e observation (14).
Pour la loi symétrique, la moyenne (ligne bleue) et la médiane (ligne orange) sont tellement proches qu'il est difficile de distinguer les deux lignes. Toutefois, la loi non symétrique présente un asymétrie vers la droite.
Les quartiles sont les trois valeurs (1er quartile à 25 % (Q1), deuxième quartile à 50 % (Q2 ou médiane) et troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.
Le troisième quartile est le 75e percentile et indique que 75 % des données sont inférieures ou égales à cette valeur.
Pour ces données ordonnées, le troisième quartile (Q3) est 17,5. Cela signifie que 75 % des données sont inférieures ou égales à 17,5.
Le maximum est la valeur de la donnée la plus importante.
Dans ces données, le maximum est 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilisez le maximum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la dispersion de vos données consiste à comparer le minimum et le maximum. Si la valeur maximale est très élevée, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.
L'intervalle de confiance fournit une étendue de valeurs probables pour le paramètre de population. Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Toutefois, si vous répétiez l'échantillonnage de nombreuses fois, un certain pourcentage des intervalles de confiance ou bornes obtenus contiendrait le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance ou bornes contenant le paramètre est le niveau de confiance de l'intervalle. Par exemple, un niveau de confiance de 95 % indique que, sur 100 échantillons pris de façon aléatoire parmi la population, environ 95 de ces échantillons devraient produire des intervalles contenant le paramètre de population.
Une borne supérieure définit une valeur à laquelle le paramètre de population est susceptible d'être inférieur. Une borne inférieure définit une valeur à laquelle le paramètre de population est susceptible d'être supérieur.
L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon. Pour plus d'informations, reportez-vous à la rubrique Obtenir un intervalle de confiance plus précis.
Un histogramme divise les valeurs des échantillons en plusieurs intervalles et représente l'effectif des valeurs contenues dans chaque intervalle par une barre.
Utilisez un histogramme pour évaluer la forme et la dispersion des données. Les histogrammes sont plus adaptés lorsque l'effectif d'échantillon est supérieur à 20.
Vous pouvez utiliser un histogramme des données avec courbe normale pour évaluer la normalité de vos données. Une loi normale est symétrique et en forme de cloche. Il est souvent difficile d'évaluer la normalité avec de petits échantillons. Un diagramme de probabilité est le meilleur moyen de déterminer l'ajustement de la loi.
Les valeurs aberrantes, qui sont des valeurs de données très éloignées des autres valeurs de données, peuvent avoir une incidence importante sur les résultats de votre analyse. En général, les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.
Sur un histogramme, des barres isolées à une extrémité ou l'autre du graphique indiquent de possibles valeurs aberrantes.
Essayez de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Supprimez éventuellement les valeurs de données associées à des événements anormaux et uniques (aussi appelés causes spéciales). Ensuite, répétez l'analyse. Pour plus d'informations, reportez-vous à la rubrique Identification des valeurs aberrantes.
Les données multimodales présentent plusieurs pics, également appelés modes. Les données multimodales indiquent souvent que des variables importantes ne sont pas encore représentées.
Par exemple, un responsable de banque collecte des données de temps d'attente et crée un histogramme simple. L'histogramme présente deux pics. Après examen, le responsable détermine que le temps d'attente est plus court pour les clients qui encaissent des chèques que pour ceux qui font des demandes de prêt sur valeur domiciliaire. Le responsable ajoute une variable de groupe pour la tâche client, puis crée un histogramme avec des groupes.
Si des informations supplémentaires vous permettent de classer les observations en groupes, vous pouvez créer une variable de groupe avec ces informations. Vous pouvez ensuite créer le graphique avec des groupes pour déterminer si la variable de groupe explique les pics dans les données.
Une boîte à moustaches fournit un récapitulatif graphique de la loi de distribution d'un échantillon. La boîte à moustaches indique la forme, la tendance centrale et la variabilité des données.
Utilisez une boîte à moustaches pour examiner la dispersion des données et pour détecter d'éventuelles valeurs aberrantes. Les boîtes à moustaches sont plus adaptées lorsque l'effectif d'échantillon est supérieur à 20.
Examinez de la dispersion des données pour déterminer si elles semblent asymétriques. Lorsque les données sont asymétriques, la majorité d'entre elles sont situées sur le côté supérieur ou inférieur du graphique. En général, l'asymétrie est plus facile à détecter avec un histogramme ou une boîte à moustaches.
La boîte à moustaches avec des données asymétriques à droite illustre des temps d'attente. La plupart des temps d'attente sont relativement courts, seuls certains sont longs. La boîte à moustaches avec des données asymétriques à gauche représente des données de temps de défaillance. Quelques éléments rencontrent une défaillance immédiatement, mais pour bien plus d'entre eux, elle survient plus tard.
Les valeurs aberrantes, qui sont des valeurs de données très éloignées des autres valeurs de données, peuvent avoir une incidence importante sur les résultats de votre analyse. En général, les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.
Sur une boîte à moustaches, les astérisques (*) indiquent les valeurs aberrantes.
Essayez de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Supprimez éventuellement les valeurs de données associées à des événements anormaux et uniques (aussi appelés causes spéciales). Ensuite, répétez l'analyse. Pour plus d'informations, reportez-vous à la rubrique Identification des valeurs aberrantes.