La statistique d'ajustement d'Anderson-Darling (A au carré) mesure l'aire comprise entre la ligne ajustée (basée sur la loi normale) et la fonction de répartition empirique (basée sur les points de données). La statistique d'Anderson-Darling est le carré d'une distance ayant une pondération plus élevée aux extrémités de la distribution.
Minitab utilise la statistique d'Anderson-Darling pour calculer la valeur de p. La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Une valeur de p inférieure fournit des preuves plus solides par rapport à l'hypothèse nulle. Une valeur moindre pour la statistique d'Anderson-Darling indique que les données suivent plus précisément la loi normale.
La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Une valeur de p inférieure fournit des preuves plus solides par rapport à l'hypothèse nulle.
Utilisez la valeur de p pour déterminer si les données ne suivent pas la loi normale.
Elle est calculée comme la moyenne des données, c'est-à-dire la somme de toutes les observations, divisée par le nombre d'observations.
Utilisez la moyenne pour décrire l'échantillon avec une seule valeur qui représente le centre des données. De nombreuses analyses statistiques utilisent la moyenne en tant que mesure standard pour le centre de la loi des données.
L'écart type est la mesure la plus courante de la dispersion ou de la répartition des données sur la moyenne. Le symbole σ (sigma) est souvent utilisé pour représenter l'écart type d'une population, tandis que s sert à représenter l'écart type d'un échantillon. Une variation qui est aléatoire ou naturelle pour un procédé est souvent appelée un bruit.
Etant donné que l'écart type utilise les mêmes unités que les données, il est généralement plus facile à interpréter que la variance.
Utilisez l'écart type pour déterminer la dispersion des données par rapport à la moyenne. Une valeur d'écart type élevée indique que les données sont dispersées. D'une manière générale, pour une loi normale, environ 68 % des valeurs se situent dans un écart type de la moyenne, 95 % des valeurs se situent dans deux écarts types et 99,7 % des valeurs se situent dans trois écarts types.
La variance mesure le degré de dispersion des données autour de leur moyenne. Elle est égale à l'écart type au carré.
Plus la variance est élevée, plus les données sont dispersées.
Etant donné que la variance (σ2) représente une quantité élevée au carré, ses unités sont également élevées au carré. C'est pourquoi la variance est difficile à utiliser dans la pratique. Il est généralement plus facile d'interpréter l'écart type, car il utilise les mêmes unités que les données. Par exemple, un échantillon de temps d'attente à un arrêt de bus peut avoir une moyenne de 15 minutes et une variance de 9 minutes2. Etant donné que la variance n'utilise pas les mêmes unités que les données, elle est généralement affichée avec sa racine carrée, l'écart type. Une variance de 9 minutes2 est équivalente à un écart type de 3 minutes.
L'asymétrie évalue dans quelle mesure vos données ne sont pas symétriques.
L'aplatissement indique dans quelle mesure les queues d'une loi diffèrent de la loi normale.
Nombre de valeurs présentes dans votre échantillon.
Dénombrement total | N | N* |
---|---|---|
149 | 141 | 8 |
Le minimum est la valeur de données la plus petite.
Dans ces données, le minimum est de 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilisez le minimum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la répartition de vos données consiste à comparer le minimum et le maximum. Si la valeur minimum est très basse, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.
Les quartiles sont les trois valeurs (1er quartile à 25 % (Q1), deuxième quartile à 50 % (Q2 ou médiane) et troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.
Le 1er quartile est le 25e percentile et indique que 25 % des données sont inférieures ou égales à cette valeur.
La médiane représente le milieu de l'ensemble de données. Ce point de milieu est celui qui sépare les observations en deux moitiés égales, l'une supérieure à la valeur, l'autre inférieure. La médiane est déterminée en classant les observations, puis en prenant l'observation de rang [N + 1] / 2 dans l'ordre obtenu. Si le nombre d'observations est pair, la médiane est égale à la moyenne des observations de rang N/2 et [N/2] + 1.
Les quartiles sont les trois valeurs (1er quartile à 25 % (Q1), deuxième quartile à 50 % (Q2 ou médiane) et troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.
Le troisième quartile est le 75e percentile et indique que 75 % des données sont inférieures ou égales à cette valeur.
Le maximum est la valeur de la donnée la plus importante.
Dans ces données, le maximum est 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilisez le maximum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la dispersion de vos données consiste à comparer le minimum et le maximum. Si la valeur maximale est très élevée, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.
L'intervalle de confiance fournit une étendue de valeurs probables pour le paramètre de population. Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Toutefois, si vous répétiez l'échantillonnage de nombreuses fois, un certain pourcentage des intervalles de confiance ou bornes obtenus contiendrait le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance ou bornes contenant le paramètre est le niveau de confiance de l'intervalle. Par exemple, un niveau de confiance de 95 % indique que, sur 100 échantillons pris de façon aléatoire parmi la population, environ 95 de ces échantillons devraient produire des intervalles contenant le paramètre de population.
Une borne supérieure définit une valeur à laquelle le paramètre de population est susceptible d'être inférieur. Une borne inférieure définit une valeur à laquelle le paramètre de population est susceptible d'être supérieur.
L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon. Pour plus d'informations, reportez-vous à la rubrique Obtenir un intervalle de confiance plus précis.
Un histogramme divise les valeurs des échantillons en plusieurs intervalles et représente l'effectif des valeurs contenues dans chaque intervalle par une barre.
Utilisez un histogramme pour évaluer la forme et la dispersion des données. Les histogrammes sont plus adaptés lorsque l'effectif d'échantillon est supérieur à 20.
Vous pouvez utiliser un histogramme des données avec courbe normale pour évaluer la normalité de vos données. Une loi normale est symétrique et en forme de cloche. Il est souvent difficile d'évaluer la normalité avec de petits échantillons. Un diagramme de probabilité est le meilleur moyen de déterminer l'ajustement de la loi.
Les valeurs aberrantes, qui sont des valeurs de données très éloignées des autres valeurs de données, peuvent avoir une incidence importante sur les résultats de votre analyse. En général, les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.
Essayez de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Supprimez éventuellement les valeurs de données associées à des événements anormaux et uniques (aussi appelés causes spéciales). Ensuite, répétez l'analyse. Pour plus d'informations, reportez-vous à la rubrique Identification des valeurs aberrantes.
Les données multimodales présentent plusieurs pics, également appelés modes. Les données multimodales indiquent souvent que des variables importantes ne sont pas encore représentées.
Si des informations supplémentaires vous permettent de classer les observations en groupes, vous pouvez créer une variable de groupe avec ces informations. Vous pouvez ensuite créer le graphique avec des groupes pour déterminer si la variable de groupe explique les pics dans les données.
Une boîte à moustaches fournit un récapitulatif graphique de la loi de distribution d'un échantillon. La boîte à moustaches indique la forme, la tendance centrale et la variabilité des données.
Utilisez une boîte à moustaches pour examiner la dispersion des données et pour détecter d'éventuelles valeurs aberrantes. Les boîtes à moustaches sont plus adaptées lorsque l'effectif d'échantillon est supérieur à 20.
Examinez de la dispersion des données pour déterminer si elles semblent asymétriques. Lorsque les données sont asymétriques, la majorité d'entre elles sont situées sur le côté supérieur ou inférieur du graphique. En général, l'asymétrie est plus facile à détecter avec un histogramme ou une boîte à moustaches.
Les valeurs aberrantes, qui sont des valeurs de données très éloignées des autres valeurs de données, peuvent avoir une incidence importante sur les résultats de votre analyse. En général, les valeurs aberrantes sont plus faciles à repérer sur une boîte à moustaches.
Essayez de déterminer la cause de toutes les valeurs aberrantes. Corrigez les erreurs de mesure ou d’entrée des données. Supprimez éventuellement les valeurs de données associées à des événements anormaux et uniques (aussi appelés causes spéciales). Ensuite, répétez l'analyse. Pour plus d'informations, reportez-vous à la rubrique Identification des valeurs aberrantes.