히스토그램에 대한 주요 결과 해석

히스토그램을 해석하려면 다음 단계를 수행하십시오.

1단계: 주요 특성 평가

분포의 봉우리와 산포를 조사합니다. 표본 크기가 히스토그램의 모양에 어떤 영향을 미칠 수 있는지 평가합니다.

봉우리 및 산포

막대의 가장 높은 군집인 봉우리를 식별합니다. 봉우리는 가장 일반적인 값을 나타냅니다. 데이터의 변동성을 확인하려면 표본 산포를 평가하십시오.

예를 들어, 이 고객 대기 시간의 히스토그램에서는 약 6분에 데이터 봉우리가 발생합니다. 데이터 산포는 약 2분에서 12분까지입니다.

히스토그램의 갑작스럽거나 바람직하지 않은 특성을 조사합니다. 예를 들어, 고객 대기 시간의 히스토그램은 예상보다 더 넓은 산포를 보여줍니다. 조사 결과 컴퓨터의 소프트웨어 업데이트에 따라 고객 대기 시간이 지연되었습니다.

표본 크기(n)

표본 크기가 그래프 모양에 영향을 미칠 수 있습니다.

예를 들어, 이러한 히스토그램은 서로 아주 다르게 보이지만, 둘 다 동일한 모집단에서 랜덤하게 선택된 데이터 표본을 사용하여 생성되었습니다.
n = 20
n = 100

히스토그램은 표본 크기가 20 이상일 때 가장 잘 작동합니다. 표본 크기가 너무 작으면 히스토그램의 각 막대에 데이터 분포를 정확하게 표시하기에 충분한 데이터 점이 포함되지 않을 수 있습니다. 표본이 클수록 히스토그램이 모집단 분포의 형상과 유사합니다. 표본 크기가 20보다 작으면 대신 개별 값 그림을 사용해 보십시오.

2단계: 비정규 또는 비정상 데이터의 지시자 확인

치우친 데이터 및 다봉 데이터는 데이터가 비정규 데이터일 수도 있다는 것을 나타냅니다. 특이치는 데이터의 다른 조건을 나타낼 수도 있습니다.

치우친 데이터

데이터가 치우쳐 있으면 대부분의 데이터가 그래프의 높은 쪽이나 낮은 쪽에 위치합니다. 왜도는 데이터가 정규 분포를 따르지 않을 수도 있음을 나타냅니다.

이 히스토그램은 치우친 데이터를 보여줍니다. 오른쪽으로 치우친 데이터의 히스토그램은 대기 시간을 보여줍니다. 대부분의 대기 시간이 비교적 짧고 몇 개의 대기 시간만 깁니다. 왼쪽으로 치우친 데이터의 히스토그램은 수명 데이터를 보여줍니다. 몇 개의 품목이 즉시 고장나고 더 많은 품목이 나중에 고장납니다.

오른쪽으로 치우침
왼쪽으로 치우침

데이터가 자연스럽게 치우쳐 있지 않다는 것을 알고 있으면 가능한 원인을 조사하십시오. 심하게 치우친 데이터를 분석하려면 분석에 대한 데이터 고려 사항을 읽어보고 정규 분포를 따르지 않는 데이터를 사용할 수 있는지 확인하십시오.

특이치

다른 데이터 값에서 멀리 떨어져 있는 데이터 값인 특이치는 결과에 크게 영향을 미칠 수 있습니다. 일반적으로 상자 그림에서 특이치를 식별하기가 가장 쉽습니다.

히스토그램에서는 양쪽 끝의 고립된 막대가 특이치를 나타냅니다.

특이치의 원인을 식별해 보십시오. 모든 데이터 입력 또는 측정 오류를 수정하십시오. 비정상적인 일회성 사건과 연관된 데이터 값을 삭제해 보십시오(특수 원인). 그런 다음 분석을 반복하십시오.

다봉 데이터

다봉 데이터에는 봉우리가 두 개 이상 있습니다. (봉우리는 데이터 집합의 최빈값을 나타냅니다.) 다봉 데이터는 일반적으로 두 개 이상의 공정이나 조건(예: 두 개 이상의 온도)에서 데이터가 수집되는 경우 발생합니다.

예를 들어, 이 히스토그램은 같은 데이터의 그래프입니다. 단순 히스토그램에는 두 개의 봉우리가 있지만, 봉우리가 무엇을 의미하는지는 확실하지 않습니다. 그룹이 표시된 히스토그램은 봉우리가 두 그룹에 해당한다는 것을 보여줍니다.

단순
그룹 표시

관측치를 그룹으로 분류할 수 있는 추가 정보가 있는 경우 이 정보를 사용하여 그룹 변수를 만들 수 있습니다. 그런 다음, 그룹으로 그래프를 생성하여 그룹 변수가 데이터의 봉우리를 설명하는지 여부를 확인할 수 있습니다.

기존 그래프에 그룹 변수를 추가하려면 그래프에서 데이터 표시를 두 번 클릭한 다음 그룹 탭을 클릭하십시오.

3단계: 분포의 적합도 평가

히스토그램에 적합 분포선이 있는 경우 막대의 높이가 선의 형상을 얼마나 가깝게 따르는지 평가합니다. 막대가 적합 분포선을 가깝게 따르면 데이터가 분포를 잘 적합하는 것입니다.

참고

여러 분포와 모수를 지정하는 방법에 대한 내용은 적합 분포선에서 확인하십시오.

좋은 적합치
좋지 않은 적합치

분포 적합도를 더 정밀하게 측정하려면 확률도를 사용하여 적합치의 통계적 유의성을 확인하십시오.

4단계: 그룹 평가 및 비교

히스토그램에 그룹이 있으면 그룹의 중심과 산포를 평가하고 비교합니다.

중심

그룹의 중심 간 차이를 확인합니다.

예를 들어, 이 히스토그램은 세 가지 신용카드 신청서 버전의 완료 시간을 보여줍니다. 각 신용카드 신청서 버전의 중심은 서로 다른 위치에 있습니다. 위치의 차이는 평균 완료 시간이 서로 다르다는 것을 나타냅니다.
중첩 히스토그램
여러 패널로 표시되는 히스토그램
평균의 차이가 통계적으로 유의한지 여부를 확인하려면 다음 작업 중 하나를 수행하십시오.

산포

그룹의 산포 간 차이를 확인합니다.

예를 들어, 이 히스토그램은 세 대의 기계에서 충전되는 병의 무게를 보여줍니다. 히스토그램의 중심은 거의 같지만 일부 히스트그램이 더 넓고 더 분산되어 있습니다. 산포가 더 넓으면 해당 기계에서 병을 덜 일관되게 충전한다는 것을 나타냅니다.
중첩 히스토그램
여러 패널로 표시되는 히스토그램
산포(분산)의 차이가 통계적으로 유의한지 여부를 확인하려면 다음 작업 중 하나를 수행하십시오.