데이터 집합은 여러 방법으로 분포 또는 분산될 수 있습니다. 예를 들어, 주사위를 던진 결과의 데이터는 1에서 6 사이의 랜덤 정수입니다. 제조 공정의 데이터는 목표값을 중심으로 분포할 수 있으며 중심 값에서 아주 멀리 떨어진 데이터 값이 포함될 수도 있습니다.
데이터 분포는 그래프, 기술 통계량 또는 이론적 분포와의 비교를 통해 평가할 수 있습니다.
- 그래프
- 히스토그램과 같은 그래프에서는 데이터 집합의 분포를 즉시 알아볼 수 있습니다. 히스토그램은 다음 사항을 관측하는 데 도움이 됩니다.
- 데이터가 단일 값을 중심으로 모여있는지 아니면 여러 최고점 또는 최빈값이 있는지 여부
- 데이터가 넓은 범위에 조금씩 분산되어 있는지 아니면 데이터가 작은 범위 안에 있는지 여부
- 데이터가 치우쳐 있는지 아니면 대칭적인지 여부
- 기술 통계량
- 숫자 값을 사용하여 데이터의 중심 위치(평균, 중위수) 및 산포도(분산, 표준 편차)를 나타내는 기술 통계량은 더욱 상세해지고 다른 데이터 집합과 비교하는 데 사용할 수 있습니다.
- 이론적 분포
- 마지막으로, 일부 일반적인 분포는 정규 분포, Weibull 분포, 지수 분포와 같은 이름으로 식별하고 나타낼 수 있습니다. 예를 들어, 정규 분포는 항상 종 모양이고 평균 값을 중심으로 대칭입니다.
- 실제 데이터는 이처럼 완벽한 분포와 유사한 분포를 나타낼 것입니다. 가깝게 일치하는 분포가 있다면 데이터가 해당 분포에 의해 잘 모형화되었다고 말할 수 있습니다. 데이터에 가장 적합한 분포를 식별하려면 을 사용하십시오.