Elle est calculée comme la moyenne des données, c'est-à-dire la somme de toutes les observations, divisée par le nombre d'observations.
Utilisez la moyenne pour décrire l'échantillon avec une seule valeur qui représente le centre des données. De nombreuses analyses statistiques utilisent la moyenne en tant que mesure standard pour le centre de la loi des données.
L'erreur type de la moyenne (ErT moyenne) estime la variabilité entre les moyennes d'échantillons que vous obtiendriez si vous preniez des échantillons répétés de la même population. Elle évalue la variabilité d'un échantillon à un autre, tandis que l'écart type mesure la variabilité au sein d'un même échantillon.
Par exemple, vous disposez d'un délai de livraison moyen de 3,80 jours avec un écart type de 1,43 jour, basé sur un échantillon aléatoire de 312 délais de livraison. Ces chiffres génèrent une erreur type de la moyenne de 0,08 jour (1,43 divisé par la racine carrée de 312). Si vous prenez en compte plusieurs échantillons aléatoires de même effectif et provenant de la même population, l'écart type de ces différentes moyennes d'échantillons tournerait autour de 0,08 jour.
Vous pouvez utiliser l'erreur type de la moyenne pour déterminer avec quelle précision la moyenne de l'échantillon évalue la moyenne de la population.
Lorsque la valeur de l'erreur type de la moyenne est moins élevée, l'estimation de la moyenne de la population est plus précise. En règle générale, plus l'écart type est grand, plus l'erreur type de la moyenne est élevée et moins l'estimation de la moyenne de la population est précise. En revanche, plus l'effectif d'échantillon est élevé, plus l'erreur type de la moyenne est faible et plus l'estimation de la moyenne de la population est précise.
Minitab utilise l'erreur type de la moyenne pour calculer l'intervalle de confiance.
L'écart type est la mesure la plus courante de la dispersion ou de la répartition des données sur la moyenne. Le symbole σ (sigma) est souvent utilisé pour représenter l'écart type d'une population, tandis que s sert à représenter l'écart type d'un échantillon. Une variation qui est aléatoire ou naturelle pour un procédé est souvent appelée un bruit.
Etant donné que l'écart type utilise les mêmes unités que les données, il est généralement plus facile à interpréter que la variance.
Utilisez l'écart type pour déterminer la dispersion des données par rapport à la moyenne. Une valeur d'écart type élevée indique que les données sont dispersées. D'une manière générale, pour une loi normale, environ 68 % des valeurs se situent dans un écart type de la moyenne, 95 % des valeurs se situent dans deux écarts types et 99,7 % des valeurs se situent dans trois écarts types.
La variance mesure le degré de dispersion des données autour de leur moyenne. Elle est égale à l'écart type au carré.
Plus la variance est élevée, plus les données sont dispersées.
Etant donné que la variance (σ2) représente une quantité élevée au carré, ses unités sont également élevées au carré. C'est pourquoi la variance est difficile à utiliser dans la pratique. Il est généralement plus facile d'interpréter l'écart type, car il utilise les mêmes unités que les données. Par exemple, un échantillon de temps d'attente à un arrêt de bus peut avoir une moyenne de 15 minutes et une variance de 9 minutes2. Etant donné que la variance n'utilise pas les mêmes unités que les données, elle est généralement affichée avec sa racine carrée, l'écart type. Une variance de 9 minutes2 est équivalente à un écart type de 3 minutes.
Le coefficient de variation (appelé CDV) est une mesure de la répartition qui décrit la variation des données par rapport à la moyenne. Le coefficient de variation est ajusté de façon à ce que les valeurs soient sur une échelle sans unités. C'est pourquoi vous pouvez utiliser le coefficient de variation à la place de l'écart type pour comparer la variation des données ayant des unités ou des moyennes très différentes.
Plus le coefficient de variation est élevé, plus les données sont dispersées.
Grande brique | Petite brique |
---|---|
CDV = 100 * 0,4 tasse / 16 tasses = 2,5 | CDV = 100 * 0,08 tasse / 1 tasse = 8 |
Les quartiles sont les trois valeurs—le premier quartile à 25 % (Q1), le deuxième quartile à 50 % (Q2 ou médian) et le troisième quartile à 75 % (Q3)—qui divisent un échantillon de données ordonnées en quatre parts égales.
Le premier quartile est le 25e percentile et indique que 25 % des données sont inférieures ou égales à cette valeur.
La médiane représente le milieu de l'ensemble de données. Ce point de milieu est celui qui sépare les observations en deux moitiés égales, l'une supérieure à la valeur, l'autre inférieure. La médiane est déterminée en classant les observations, puis en prenant l'observation de rang [N + 1] / 2 dans l'ordre obtenu. Si le nombre d'observations est pair, la médiane est égale à la moyenne des observations de rang N/2 et [N/2] + 1.
Les quartiles sont les trois valeurs (le premier quartile à 25 % (Q1), le deuxième quartile à 50 % (Q2 ou médiane) et le troisième quartile à 75 % (Q3)) qui divisent un échantillon de données ordonnées en quatre parts égales.
Le troisième quartile est le 75e percentile et indique que 75 % des données sont inférieures ou égales à cette valeur.
L'étendue interquartile (EIQ) est la distance entre le premier quartile (Q1) et le troisième quartile (Q3). 50 % des données sont dans cette étendue.
Utilisez l'étendue interquartile pour décrire la répartition des données. A mesure que la répartition des données augmente, l'EIQ devient plus important.
La moyenne des données, à l'exclusion des 5 % de valeurs les plus élevées et des 5 % de valeurs les moins élevées.
La moyenne tronquée permet d'éliminer l'impact des valeurs très élevées ou très faibles sur la moyenne. Lorsque les données comportent des valeurs aberrantes, la moyenne tronquée peut s'avérer être une meilleure mesure de la tendance centrale que la moyenne.
La somme est le total de toutes les valeurs des données. La somme est également utilisée dans les calculs statistiques, comme la moyenne et l'écart type.
Le minimum est la valeur de données la plus petite.
Dans ces données, le minimum est de 7.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilisez le minimum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la répartition de vos données consiste à comparer le minimum et le maximum. Si la valeur minimum est très basse, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.
Le maximum est la valeur de la donnée la plus importante.
Dans ces données, le maximum est 19.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
Utilisez le maximum pour identifier une éventuelle valeur aberrante ou une erreur d'entrée de données. L'une des manières les plus simples d'estimer la dispersion de vos données consiste à comparer le minimum et le maximum. Si la valeur maximale est très élevée, même en tenant compte du centre, de la répartition et de la forme des données, recherchez la cause de cette valeur extrême.
L'étendue est la différence entre la plus grande valeur des données de l'échantillon et la plus petite. L'étendue représente l'intervalle contenant l'ensemble des valeurs des données.
Utilisez l'étendue pour comprendre l'importance de la dispersion des données. Une valeur d'étendue importante indique une plus grande dispersion des données. Une petite valeur d'étendue indique que les données sont moins dispersées. Comme l'étendue est calculée à l'aide de seulement deux valeurs de données, elle est plus utile avec de petits fichiers de données.
Les sommes des carrés non corrigées sont la somme des carrés de chaque valeur de la colonne. Par exemple, si la colonne contient x1, x2, ... , xn, la somme des carrés est égale à (x12 + x22 + ... + xn2). A la différence de la somme des carrés corrigée, la somme des carrés non corrigée inclut l'erreur. Les valeurs sont élevées au carré sans soustraction préalable de la moyenne.
L'asymétrie évalue dans quelle mesure vos données ne sont pas symétriques.
L'aplatissement indique dans quelle mesure les queues d'une loi diffèrent de la loi normale.
La MSSD est la moyenne des différences successives carrées. La MSSD est une estimation de la variance. Elle peut être utilisée pour tester si une séquence d'observations est aléatoire. En contrôle qualité, la MSSD peut être utilisée pour estimer la variance lorsque l'effectif du sous-groupe est égal à 1.
Nombre de valeurs présentes dans votre échantillon.
Dénombrement total | N | N* |
---|---|---|
149 | 141 | 8 |
Nombre de valeurs manquantes dans votre échantillon. Le nombre de valeurs manquantes correspond au nombre de cellules contenant le symbole de valeur manquante *.
Dénombrement total | N | Nombre de valeurs manquantes |
---|---|---|
149 | 141 | 8 |
Nombre total d'observations dans la colonne. Sert à représenter le total des valeurs présentes et manquantes.
Dénombrement | N | Nombre de valeurs manquantes |
---|---|---|
149 | 141 | 8 |
Niveau scolaire | Dénombrement | NCum | Calcul |
---|---|---|---|
1 | 49 | 49 | 49 |
2 | 58 | 107 | 49 + 58 |
3 | 52 | 159 | 49 + 58 + 52 |
4 | 60 | 219 | 49 + 58 + 52 + 60 |
5 | 48 | 267 | 49 + 58 + 52 + 60 + 48 |
6 | 55 | 322 | 49 + 58 + 52 + 60 + 48 + 55 |
Le pourcentage d'observations dans chaque groupe Par variable. Dans l'exemple suivant, il y a quatre groupes : Ligne 1, Ligne 2, Ligne 3 et Ligne 4.
Groupe (par variable) | Pourcentage |
---|---|
Chaîne 1 | 16 |
Chaîne 2 | 20 |
Chaîne 3 | 36 |
Chaîne 4 | 28 |
Le pourcentage cumulé est la somme des pourcentages pour chaque groupe de la colonne Variable de répartition. Dans l'exemple suivant, la colonne Variable de répartition contient 4 groupes : Ligne 1, Ligne 2, Ligne 3 et Ligne 4.
Groupe (variable de répartition) | Pourcentage | % cumulé |
---|---|---|
Chaîne 1 | 16 | 16 |
Chaîne 2 | 20 | 36 |
Chaîne 3 | 36 | 72 |
Chaîne 4 | 28 | 100 |