열 통계량행 통계량에 대한 주요 결과 해석

열 통계량 및 행 통계량과 함께 제공되는 모든 통계량에 대한 정의 및 해석 방법을 확인해 보십시오.

합은 모든 데이터 값의 합입니다. 합은 또한 평균, 표준 편차 등 통계 계산에도 사용됩니다.

평균

평균은 모든 관측치의 합을 관측치 수로 나눈 데이터의 평균입니다.

예를 들어, 한 은행에서 고객 다섯 명의 대기 시간이 3, 2, 4, 1, 2분입니다. 평균 대기 시간은 다음과 같이 계산됩니다.
고객은 이 은행에서 업무를 보기 위해 평균 2.4분을 기다립니다.

해석

데이터 중심을 나타내는 하나의 값으로 표본을 설명하려면 평균을 사용하십시오. 많은 통계 분석에서 평균을 데이터의 분포 중심에 대한 표준 측도로 사용합니다.

중위수와 평균 모두 중심 위치를 측정합니다. 그러나 특이치라고 하는 비정상적인 값은 평균보다 중위수에 덜 영향을 미칠 수 있습니다. 데이터가 대칭인 경우 평균과 중위수가 유사합니다.
대칭
비대칭

대칭 분포의 경우 평균(파란색 선)과 중위수(주황색 선)가 너무 비슷하여 두 선을 모두 쉽게 볼 수 없습니다. 그러나 비대칭 분포는 오른쪽으로 치우칩니다.

표준 편차

표준 편차는 산포, 즉 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 가장 일반적인 측도입니다. 모집단의 표준 편차를 나타내는 데는 σ(시그마) 기호를 자주 사용하는 반면, 표본의 표준 편차를 사용하는 데는 s를 사용합니다. 랜덤이 아니거나 공정에 자연스럽지 못한 변동은 종종 잡음이라고 합니다.

표준 편차는 데이터와 단위가 같기 때문에 일반적으로 분산보다 더 쉽게 해석할 수 있습니다.

해석

데이터가 평균을 중심으로 퍼져 있는 정도를 확인하려면 표준 편차를 사용합니다. 표준 편차 값이 클수록 데이터가 더 퍼져 있다는 것을 나타냅니다. 정규 분포에 대한 일반 규칙은 대략 68%의 값이 평균으로부터 1 표준 편차 거리 내에 있고, 95%의 값이 2 표준 편차 거리 내에 있고, 99.7%의 값이 3 표준 편차 거리 내에 있다는 것입니다.

또한 공정의 전체 변동을 추정하기 위한 벤치마크를 설정하기 위해 표준 편차를 사용할 수 있습니다.
병원 1
병원 2
병원 퇴원 시간

관리자들이 두 개 병원의 응급실 부서에서 치료한 환자의 퇴원 시간을 추적하고자 합니다. 평균 퇴원 시간은 동일하지만(35분) 표준 편차는 유의하게 다릅니다. 병원 1의 표준 편차가 약 6이며, 평균적으로 환자의 퇴원 시간은 평균(대시선)에서 약 6분 정도 멀어집니다. 병원 2의 표준 편차는 약 20입니다. 평균적으로 환자의 퇴원 시간은 평균(대시선)에서 약 20분 정도 멀어집니다.

최소값

최소값은 가장 작은 데이터 값입니다.

이 데이터에서 최소값은 7입니다.

13 17 18 19 12 10 7 9 14

해석

가능한 특이치 또는 데이터 입력 오류를 식별하려면 최소값을 사용합니다. 데이터의 산포를 평가하는 가장 간단한 방법은 최소값과 최대값을 비교하는 것입니다. 최소값이 아주 작은 경우에는 데이터의 중심, 산포, 모양 외에 극단값의 원인도 조사하십시오.

최대값

최대값은 가장 큰 데이터 값입니다.

이 데이터에서 최대값은 19입니다.

13 17 18 19 12 10 7 9 14

해석

가능한 특이치 또는 데이터 입력 오류를 식별하려면 최대값을 사용합니다. 데이터의 산포를 평가하는 가장 간단한 방법은 최소값과 최대값을 비교하는 것입니다. 최대값이 아주 큰 경우에는 데이터의 중심, 산포, 모양 외에 극단값의 원인도 조사하십시오.

범위

범위는 표본의 최대 데이터 값과 최소 데이터 값의 차이입니다. 범위는 모든 데이터 값이 포함된 간격을 나타냅니다.

해석

데이터의 산포 정도를 확인하려면 범위를 사용합니다. 범위 값이 클수록 데이터의 산포가 크다는 것을 나타냅니다. 범위 값이 작으면 데이터의 산포가 작다는 것을 나타냅니다. 범위는 두 데이터 값만을 사용하여 계산되기 때문에 데이터 집합이 작은 경우 더 유용합니다.

중위수

중위수는 데이터 집합의 중간점입니다. 중간점 값은 관측치의 반이 이 값보다 크고 관측치의 반이 이 값보다 작은 점입니다. 중위수는 관측치에 순위를 매기고 순위가 [N + 1] / 2인 관측치를 찾는 방법으로 결정됩니다. 관측치의 수가 짝수이면 순위가 N / 2인 관측치와 순위가 [N / 2] + 1인 관측치의 평균 값이 중위수입니다.

이 순서 데이터의 경우 중위수는 13입니다. 즉, 값의 반은 13보다 작거나 같고, 값의 반은 13보다 크거나 같습니다. 값이 20인 다른 관측치를 추가하는 경우 중위수는 13.5로, 5번째 관측치(13)와 6번째 관측치(14)의 평균입니다.

해석

중위수와 평균 모두 중심 위치를 측정합니다. 그러나 특이치라고 하는 비정상적인 값은 평균보다 중위수에 덜 영향을 미칠 수 있습니다. 데이터가 대칭인 경우 평균과 중위수가 유사합니다.
대칭
비대칭

대칭 분포의 경우 평균(파란색 선)과 중위수(주황색 선)가 너무 비슷하여 두 선을 모두 쉽게 볼 수 없습니다. 그러나 비대칭 분포는 오른쪽으로 치우칩니다.

제곱합

수정되지 않은 제곱합은 각 열의 값을 제곱한 다음 제곱 값의 합을 구하여 계산됩니다. 예를 들어, 열에 x1, x2, ... , , xn이 포함되어 있는 경우 제곱합은 (x12 + x22 + ... + xn2)입니다. 수정 제곱합과 달리 수정되지 않은 제곱합에는 오차가 포함됩니다. 데이터 값은 먼저 평균을 빼지 않은 제곱입니다.

전체 카운트

열에 있는 관측치의 총 개수입니다. 결측값 개수와 비결측값 개수를 나타내는 데 사용합니다

이 예에서 유효한 관측치는 141개, 결측값은 8개입니다. 전체 카운트는 149입니다.
전체 카운트 N N*
149 141 8

N

표본에 있는 비결측값의 개수입니다.

이 예에서는 141개의 관측치가 기록되었습니다.
전체 카운트 N N*
149 141 8

N*

표본에 있는 결측값의 개수입니다. 결측값 개수는 결측값 기호 *가 있는 셀을 가리킵니다.

이 예에서는 데이터를 수집하는 동안 8개의 오류가 발생하여 결측치로 기록되었습니다.
전체 카운트 N N*
149 141 8