줄기-잎 그림에 대한 주요 결과 해석

줄기-잎 그림을 해석하려면 다음 단계를 수행하십시오.

이 항목의 내용

1단계: 주요 특성 평가
2단계: 비정규 또는 비정상 데이터의 지시자 확인

1단계: 주요 특성 평가

분포의 중심과 산포를 조사합니다. 표본 크기가 줄기-잎 그림의 모양에 어떻게 영향을 미칠 수 있는지 평가합니다.

중심 및 산포

표본 데이터에 대해 자세히 알아보려면 다음과 같은 요소를 조사합니다.

카운트와 중위수

카운트는 왼쪽의 첫 번째 열에 있습니다. 중위수 값이 있는 행의 카운트는 괄호 안에 있습니다. 중위수 위와 아래에 있는 행의 값은 누적됩니다. 중위수 위에 있는 행의 카운트는 해당 행과 그 위에 있는 모든 행의 전체 카운트를 나타내며, 중위수 아래에 있는 행의 값은 해당 행과 그 아래에 있는 모든 행의 전체 카운트를 나타냅니다.

데이터 값

각 행에서 "줄기"(중간 열)에 있는 숫자는 표본 값의 첫 자릿수를 하나 이상 나타냅니다. 그림의 맨 위에 있는 "잎 단위"는 잎 값이 어느 소수 자릿수를 나타내는지 표시합니다.

산포

산포는 데이터가 얼마나 다른지 나타냅니다.

이 줄기-잎 그림에는 고객이 상담원과 온라인 고객 상담 채팅을 하기 위해 기다리는 시간이 나와 있습니다. 첫 번째 행에는 줄기 값 8이 있고 잎 값 0, 2, 3이 있습니다. 잎 단위는 1입니다. 따라서 그림의 첫 행은 약 80, 82 및 83의 표본 값을 나타냅니다. 값 범위는 80초에서 119초까지입니다. 중위수는 95초와 99초 사이의 값이 포함된 행에 있습니다.

C1의 줄기-잎 그림 N = 50

3	8	023
8	8	56688
21	9	0111111222444
(6)	9	555799
23	10	0000111233
13	10	55667789
5	11	14
3	11	579

예상치 못했거나 바람직하지 않은 특성을 조사합니다. 예를 들어 고객 대기 시간의 줄기-잎 그림에서는 예상보다 더 높은 값과 더 큰 산포를 보여줍니다. 조사 결과 평소보다 많은 웹 트래픽으로 인해 불안정성과 지연이 발생한 것으로 나타났습니다.

표본 크기(n)

표본 크기가 그래프 모양에 영향을 미칠 수 있습니다.

표본 크기는 줄기-잎 그림의 맨 위에 표시됩니다. 앞의 예에서 표본 크기는 50입니다(N = 50).

줄기-잎 그림은 각 데이터 값을 나타내기 때문에 표본 크기가 약 50보다 작을 때 가장 적합합니다. 표본이 50보다 크면 그림의 데이터 점이 너무 멀리 확장되어 분포를 평가하기 어려울 수 있습니다. 데이터 점의 수가 50개보다 많으면 상자 그림 또는 히스토그램을 대신 사용하는 것을 고려해 보십시오.

2단계: 비정규 또는 비정상 데이터의 지시자 확인

치우친 데이터 및 다봉 데이터는 데이터가 비정규 데이터일 수도 있다는 것을 나타냅니다. 특이치는 데이터의 다른 조건을 나타낼 수도 있습니다.

치우친 데이터

데이터가 치우쳐 있는지 여부를 확인합니다. 데이터가 치우쳐 있으면 대부분의 데이터가 그래프의 높은 쪽이나 낮은 쪽에 위치합니다. 왜도는 데이터가 정규 분포를 따르지 않을 수도 있음을 나타냅니다. 일반적으로 히스토그램이나 상자 그림에서 왜도를 탐지하기가 가장 쉽습니다.

줄기-잎 그림은 치우친 데이터를 설명합니다. 오른쪽으로 치우친 데이터가 있는 줄기-잎 그림은 대기 시간을 표시합니다. 대부분의 대기 시간이 비교적 짧고 몇 개의 대기 시간만 깁니다. 왼쪽으로 치우친 데이터가 있는 줄기-잎 그림은 수명 데이터를 표시합니다. 몇 개의 품목이 즉시 고장나고 더 많은 품목이 나중에 고장납니다.

C1의 줄기-잎 그림 N = 50

1	-0	4
6	-0	33222
16	-0	1111111111
(16)	0	0000000011111111
18	0	22222333333
7	0	4555
3	0	6
2	0
2	1
2	1	2
1	1	4

오른쪽으로 치우침

C1의 줄기-잎 그림 N = 52

3	-1	333
3	-1
5	-0	99
6	-0	6
8	-0	44
24	-0	3333333322222222
(7)	-0	1111111
21	0	000001111111
9	0	22233
4	0	445
1	0	6

왼쪽으로 치우침

데이터가 자연스럽게 치우쳐 있지 않다는 것을 알고 있으면 가능한 원인을 조사하십시오. 심하게 치우친 데이터를 분석하려면 분석에 대한 데이터 고려 사항을 읽어보고 정규 분포를 따르지 않는 데이터를 사용할 수 있는지 확인하십시오.

특이치

다른 데이터 값에서 멀리 떨어져 있는 데이터 값인 특이치는 결과에 크게 영향을 미칠 수 있습니다.

줄기-잎 그림의 끝에 있는 고립된 값은 가능한 특이치를 나타냅니다. 예를 들어 이 그림의 맨 아래에 있는 마지막 값은 특이치일 수 있습니다.

C1의 줄기-잎 그림 N = 31

2	-2	20
4	-1	52
(13)	-0	8886555433300
14	0	00334688
6	1	0046
2	2	5
1	3
1	4
1	5
1	6
1	7
1	8	0

특이치의 원인을 식별해 보십시오. 모든 데이터 입력 오류를 수정하십시오. 비정상적인 일회성 사건과 연관된 데이터 값을 삭제해 보십시오(특수 원인). 그런 다음 분석을 반복하십시오.

다봉 데이터

다봉 데이터에는 봉우리가 두 개 이상 있습니다. (봉우리는 데이터 집합의 최빈값을 나타냅니다.) 다봉 데이터는 일반적으로 두 개 이상의 공정이나 조건(예: 두 개 이상의 온도)에서 데이터가 수집되는 경우 발생합니다.

예를 들어 이 줄기-잎 그림은 같은 데이터의 그래프입니다. 단순 줄기-잎 그림에는 점의 군집이 2개 있지만 군집이 무엇을 의미하는지는 확실하지 않습니다. 그룹이 있는 줄기-잎 그림은 군집이 두 그룹에 해당함을 나타냅니다.

C1의 줄기-잎 그림 N = 100

2	7	18
5	8	589
21	9	0122235555677889
37	10	0122233334556778
(14)	11	13334455667789
49	12	2599
45	13	0012334667778888888
26	14	000011122236777888
8	15	0245779
1	16	1

단순

C1의 줄기-잎 그림 C2 = 1 N = 50

2	11	59
5	12	259
24	13	0012334667778888888
(18)	14	000011122236777888
8	15	0245779
1	16	1

C1의 줄기-잎 그림 C2 = 2 N = 50

2	7	18
5	8	589
21	9	0122235555677889
(16)	10	0122233334556778
13	11	133344566778
1	12	9

그룹 표시

관측치를 그룹으로 분류할 수 있는 추가 정보가 있는 경우 이 정보를 사용하여 그룹 변수를 만들 수 있습니다. 그런 다음, 그룹으로 그래프를 생성하여 그룹 변수가 데이터의 봉우리를 설명하는지 여부를 확인할 수 있습니다.