Un ensemble de données peut être distribué ou réparti de plusieurs façons différentes. Par exemple, des données obtenues après un lancé de dé peuvent être des nombres entiers aléatoires compris entre 1 et 6. Les données issues d'un procédé de fabrication peuvent être centrées sur une valeur cible ou comprendre des valeurs très éloignées de la valeur centrale.
Vous pouvez évaluer une loi de distribution par le biais de graphiques et de statistiques descriptives, ou encore en la comparant à une loi théorique :
- Graphiques
- Des graphiques tels que les histogrammes donnent un aperçu immédiat de la loi de distribution d'un ensemble de données. Les histogrammes vous permettent d'observer :
- Si les données sont regroupées autour d'une seule valeur ou si elles ont plusieurs pics ou modes.
- Si les données sont réparties de façon éparse sur une grande étendue ou si elles sont regroupées sur une petite étendue.
- Si les données sont symétriques ou asymétriques.
- Statistiques descriptives
- Statistiques descriptives qui décrivent la tendance centrale (moyenne, médiane) et la dispersion (variance, écart type) des données à l'aide de valeurs numériques et d'une couche de détails qui permettent d'effectuer des comparaisons avec d'autres ensembles de données.
- Lois théoriques
- Enfin, certaines lois courantes peuvent être identifiées par leur nom (et sont désignées de cette façon), comme la loi normale, la loi de Weibull et la loi exponentielle. La loi normale, par exemple, est toujours en forme de cloche et centrée de façon symétrique autour d'une valeur moyenne.
- Il est probable que vos données réelles ne fassent qu'approcher ces lois de distribution parfaites. Si elles sont suffisamment proches d'une loi de distribution donnée, vous pouvez dire que vos données sont bien modélisées par cette loi. Utilisez pour identifier la loi qui correspond le mieux à vos données.