평균은 모든 관측치의 합을 관측치 수로 나눈 데이터의 평균입니다.
데이터 중심을 나타내는 하나의 값으로 표본을 설명하려면 평균을 사용하십시오. 많은 통계 분석에서 평균을 데이터의 분포 중심에 대한 표준 측도로 사용합니다.
평균의 표준 오차(SE 평균)는 같은 모집단에서 반복 표본을 추출하는 경우 얻게 될 표본 평균 간의 변동성을 추정합니다. 평균의 표준 오차는 표본 간의 변동성을 추정하는 반면, 표준 편차는 단일 표본 내의 변동성을 측정합니다.
예를 들어, 312개의 배송 시간 랜덤 표본에서 평균 배송 시간이 3.80일이고 표준 편차가 1.43일입니다. 이 숫자로 0.08일의 평균에 대한 표준 오차가 산출됩니다(1.43을 312 제곱근으로 나눈 값). 동일한 크기의 여러 랜덤 표본을 동일한 모집단에서 추출한 경우 서로 다른 표본 평균의 표준 편차는 약 0.08일이 됩니다.
평균의 표준 오차를 사용하여 표본 평균이 모평균을 얼마나 정확하게 추정하는지 확인할 수 있습니다. .
평균의 표준 오차 값이 작을수록 모집단 평균의 더 정확한 추정치를 나타냅니다. 일반적으로 표준 편차가 클수록 평균의 표준 오차가 더 크고 추정치가 덜 정확합니다. 표본 크기가 클수록 평균의 표준 오차가 더 작고 모집단 평균의 추정치가 더 정확하게 됩니다.
Minitab에서는 평균의 표준 오차를 사용하여 신뢰 구간을 계산합니다.
표준 편차는 산포, 즉 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 가장 일반적인 측도입니다. 모집단의 표준 편차를 나타내는 데는 σ(시그마) 기호를 자주 사용하는 반면, 표본의 표준 편차를 사용하는 데는 s를 사용합니다. 랜덤이 아니거나 공정에 자연스럽지 못한 변동은 종종 잡음이라고 합니다.
표준 편차는 데이터와 단위가 같기 때문에 일반적으로 분산보다 더 쉽게 해석할 수 있습니다.
데이터가 평균을 중심으로 퍼져 있는 정도를 확인하려면 표준 편차를 사용합니다. 표준 편차 값이 클수록 데이터가 더 퍼져 있다는 것을 나타냅니다. 정규 분포에 대한 일반 규칙은 대략 68%의 값이 평균으로부터 1 표준 편차 거리 내에 있고, 95%의 값이 2 표준 편차 거리 내에 있고, 99.7%의 값이 3 표준 편차 거리 내에 있다는 것입니다.
분산은 데이터가 평균 주위에 분산된 정도를 측정합니다. 분산은 표준 편차의 제곱과 같습니다.
분산이 클수록 데이터의 범위가 더 커집니다.
분산(σ2)은 제곱된 양으로, 단위도 제곱되기 때문에 실제로 사용하기 어려울 수도 있습니다. 표준 편차는 데이터와 단위가 같기 때문에 일반적으로 더 쉽게 해석할 수 있습니다. 예를 들어, 버스 정류장에서 대기 시간의 표본을 추출한 결과 평균이 15분이고 분산은 9분2입니다. 분산은 데이터와 단위가 같지 않기 때문에 보통 제곱근(표준 편차)으로 표시됩니다. 9분2의 분산은 3분의 표준 편차와 동일합니다.
변동 계수(COV로 표시됨)는 평균에 상대적인 데이터의 변동을 설명하는 산포의 측도입니다. 변동 계수는 값이 단위가 없는 척도로 표시되도록 조정됩니다. 변동 계수에는 이렇게 조정되기 때문에 표준 편차 대신 단위가 다르거나 평균이 매우 다른 데이터의 변동성을 비교하는 데 사용할 수 있습니다.
변동 계수가 클수록 데이터의 산포가 더 큽니다.
큰 용기 | 작은 용기 |
---|---|
COV = 100 * 0.4컵 / 16컵 = 2.5 | COV = 100 * 0.08컵 / 1컵 = 8 |
사분위수는 순서가 있는 데이터의 표본을 네 개의 동일한 부분으로 나누는 세 개의 값, 25%의 제1 사분위수(Q1), 50%의 제2 사분위수(Q2 또는 중위수), 75%의 제3 사분위수(Q3)입니다.
제1 사분위수는 25번째 백분위수이며 데이터의 25%가 이 값보다 작거나 같다는 것을 나타냅니다.
중위수는 데이터 집합의 중간점입니다. 중간점 값은 관측치의 반이 이 값보다 크고 관측치의 반이 이 값보다 작은 점입니다. 중위수는 관측치에 순위를 매기고 순위가 [N + 1] / 2인 관측치를 찾는 방법으로 결정됩니다. 관측치의 수가 짝수이면 순위가 N / 2인 관측치와 순위가 [N / 2] + 1인 관측치의 평균 값이 중위수입니다.
사분위수는 순서가 있는 데이터의 표본을 네 개의 동일한 부분으로 나누는 세 개의 값, 25%의 제1 사분위수(Q1), 50%의 제2 사분위수(Q2 또는 중위수), 75%의 제3 사분위수(Q3)입니다.
제3 사분위수는 75번째 백분위수이며 데이터의 75%가 이 값보다 작거나 같다는 것을 나타냅니다.
사분위간 범위(IQR)는 제1 사분위수(Q1)와 제3 사분위수(Q3) 사이의 거리입니다. 데이터의 50%는 이 범위에 포함됩니다.
데이터의 산포를 설명하려면 사분위간 범위를 사용합니다. 데이터의 산포가 증가하면 IQR이 더 커집니다.
가장 큰 값 5%와 가장 작은 값 5%를 제외한 데이터의 평균입니다.
절사 평균을 사용하면 너무 크거나 너무 작은 값들이 평균에 영향을 미치지 않도록 할 수 있습니다. 데이터에 특이치가 있는 경우 절사 평균이 평균보다 더 나은 중심 위치의 측도일 수 있습니다.
합은 모든 데이터 값의 합입니다. 합은 또한 평균, 표준 편차 등 통계 계산에도 사용됩니다.
최소값은 가장 작은 데이터 값입니다.
이 데이터에서 최소값은 7입니다.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
가능한 특이치 또는 데이터 입력 오류를 식별하려면 최소값을 사용합니다. 데이터의 산포를 평가하는 가장 간단한 방법은 최소값과 최대값을 비교하는 것입니다. 최소값이 아주 작은 경우에는 데이터의 중심, 산포, 모양 외에 극단값의 원인도 조사하십시오.
최대값은 가장 큰 데이터 값입니다.
이 데이터에서 최대값은 19입니다.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
가능한 특이치 또는 데이터 입력 오류를 식별하려면 최대값을 사용합니다. 데이터의 산포를 평가하는 가장 간단한 방법은 최소값과 최대값을 비교하는 것입니다. 최대값이 아주 큰 경우에는 데이터의 중심, 산포, 모양 외에 극단값의 원인도 조사하십시오.
범위는 표본의 최대 데이터 값과 최소 데이터 값의 차이입니다. 범위는 모든 데이터 값이 포함된 간격을 나타냅니다.
데이터의 산포 정도를 확인하려면 범위를 사용합니다. 범위 값이 클수록 데이터의 산포가 크다는 것을 나타냅니다. 범위 값이 작으면 데이터의 산포가 작다는 것을 나타냅니다. 범위는 두 데이터 값만을 사용하여 계산되기 때문에 데이터 집합이 작은 경우 더 유용합니다.
수정되지 않은 제곱합은 각 열 값의 제곱합입니다. 예를 들어, 열에 x1, x2, ... , xn이 포함되어 있는 경우 제곱합은 (x12 + x22 + ... + xn2)입니다. 수정 제곱합과 달리 수정되지 않은 제곱합에는 오차가 포함됩니다. 데이터 값은 먼저 평균을 빼지 않은 제곱입니다.
왜도는 데이터가 대칭이 아닌 정도입니다.
첨도는 분포의 꼬리가 정규 분포와 어떻게 다른지 나타냅니다.
MSSD는 연속 차이의 제곱 평균입니다. MSSD는 분산의 추정치입니다. MSSD의 한 가지 가능한 용도는 일련의 관측치가 랜덤인지 여부를 검정하는 것입니다. 품질 관리에서 MSSD의 한 가지 가능한 용도는 부분군 크기 = 1일 때 분산을 추정하는 것입니다.
표본에 있는 비결측값의 개수입니다.
전체 카운트 | N | N* |
---|---|---|
149 | 141 | 8 |
표본에 있는 결측값의 개수입니다. 결측값 개수는 결측값 기호 *가 있는 셀을 가리킵니다.
전체 카운트 | N | 결측값 개수 |
---|---|---|
149 | 141 | 8 |
열에 있는 관측치의 총 개수입니다. 결측값 개수와 비결측값 개수를 나타내는 데 사용합니다
카운트 | N | 결측값 개수 |
---|---|---|
149 | 141 | 8 |
학년 | 카운트 | 누적 개수 | 계산 |
---|---|---|---|
1 | 49 | 49 | 49 |
2 | 58 | 107 | 49 + 58 |
3 | 52 | 159 | 49 + 58 + 52 |
4 | 60 | 219 | 49 + 58 + 52 + 60 |
5 | 48 | 267 | 49 + 58 + 52 + 60 + 48 |
6 | 55 | 322 | 49 + 58 + 52 + 60 + 48 + 55 |
기준 변수의 각 그룹 내 관측치의 백분율입니다. 다음 예에는 라인 1, 라인 2, 라인 3, 라인 4 등 4개의 그룹이 있습니다.
그룹(기준 변수) | 백분율 |
---|---|
라인 1 | 16 |
라인 2 | 20 |
라인 3 | 36 |
라인 4 | 28 |
누적 백분율은 기준 변수의 각 그룹에 대한 백분율의 누적합입니다. 다음 예에서 기준 변수에는 라인 1, 라인 2, 라인 3, 라인 4 등 4개의 그룹이 있습니다.
그룹(기준 변수) | 백분율 | 누적 백분율 |
---|---|---|
라인 1 | 16 | 16 |
라인 2 | 20 | 36 |
라인 3 | 36 | 72 |
라인 4 | 28 | 100 |