Anderson-Darling 적합도 통계량(A-제곱)은 적합선(정규 분포에 근거)과 경험적 분포 함수(데이터 점에 근거) 사이의 영역을 측정합니다. Anderson-Darling 통계량은 분포의 끝 부분에 더 많은 가중치를 부여한 거리 제곱입니다.
Minitab에서는 Anderson-Darling 통계량을 사용하여 p-값을 계산합니다. p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다. Anderson-Darling 통계량의 값이 작을수록 데이터가 정규 분포를 더 가깝게 따른다는 것을 나타냅니다.
p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.
데이터가 정규 분포를 따르지 않는지 여부를 확인하려면 p-값을 사용하십시오.
평균은 모든 관측치의 합을 관측치 수로 나눈 데이터의 평균입니다.
데이터 중심을 나타내는 하나의 값으로 표본을 설명하려면 평균을 사용하십시오. 많은 통계 분석에서 평균을 데이터의 분포 중심에 대한 표준 측도로 사용합니다.
표준 편차는 산포, 즉 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 가장 일반적인 측도입니다. 모집단의 표준 편차를 나타내는 데는 σ(시그마) 기호를 자주 사용하는 반면, 표본의 표준 편차를 사용하는 데는 s를 사용합니다. 랜덤이 아니거나 공정에 자연스럽지 못한 변동은 종종 잡음이라고 합니다.
표준 편차는 데이터와 단위가 같기 때문에 일반적으로 분산보다 더 쉽게 해석할 수 있습니다.
데이터가 평균을 중심으로 퍼져 있는 정도를 확인하려면 표준 편차를 사용합니다. 표준 편차 값이 클수록 데이터가 더 퍼져 있다는 것을 나타냅니다. 정규 분포에 대한 일반 규칙은 대략 68%의 값이 평균으로부터 1 표준 편차 거리 내에 있고, 95%의 값이 2 표준 편차 거리 내에 있고, 99.7%의 값이 3 표준 편차 거리 내에 있다는 것입니다.
분산은 데이터가 평균 주위에 분산된 정도를 측정합니다. 분산은 표준 편차의 제곱과 같습니다.
분산이 클수록 데이터의 범위가 더 커집니다.
분산(σ2)은 제곱된 양으로, 단위도 제곱되기 때문에 실제로 사용하기 어려울 수도 있습니다. 표준 편차는 데이터와 단위가 같기 때문에 일반적으로 더 쉽게 해석할 수 있습니다. 예를 들어, 버스 정류장에서 대기 시간의 표본을 추출한 결과 평균이 15분이고 분산은 9분2입니다. 분산은 데이터와 단위가 같지 않기 때문에 보통 제곱근(표준 편차)으로 표시됩니다. 9분2의 분산은 3분의 표준 편차와 동일합니다.
왜도는 데이터가 대칭이 아닌 정도입니다.
첨도는 분포의 꼬리가 정규 분포와 어떻게 다른지 나타냅니다.
표본에 있는 비결측값의 개수입니다.
전체 카운트 | N | N* |
---|---|---|
149 | 141 | 8 |
최소값은 가장 작은 데이터 값입니다.
이 데이터에서 최소값은 7입니다.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
가능한 특이치 또는 데이터 입력 오류를 식별하려면 최소값을 사용합니다. 데이터의 산포를 평가하는 가장 간단한 방법은 최소값과 최대값을 비교하는 것입니다. 최소값이 아주 작은 경우에는 데이터의 중심, 산포, 모양 외에 극단값의 원인도 조사하십시오.
사분위수는 순서가 있는 데이터의 표본을 네 개의 동일한 부분으로 나누는 세 개의 값, 25%의 제1 사분위수(Q1), 50%의 제2 사분위수(Q2 또는 중위수), 75%의 제3 사분위수(Q3)입니다.
제1 사분위수는 25번째 백분위수이며 데이터의 25%가 이 값보다 작거나 같다는 것을 나타냅니다.
중위수는 데이터 집합의 중간점입니다. 중간점 값은 관측치의 반이 이 값보다 크고 관측치의 반이 이 값보다 작은 점입니다. 중위수는 관측치에 순위를 매기고 순위가 [N + 1] / 2인 관측치를 찾는 방법으로 결정됩니다. 관측치의 수가 짝수이면 순위가 N / 2인 관측치와 순위가 [N / 2] + 1인 관측치의 평균 값이 중위수입니다.
사분위수는 순서가 있는 데이터의 표본을 네 개의 동일한 부분으로 나누는 세 개의 값, 25%의 제1 사분위수(Q1), 50%의 제2 사분위수(Q2 또는 중위수), 75%의 제3 사분위수(Q3)입니다.
제3 사분위수는 75번째 백분위수이며 데이터의 75%가 이 값보다 작거나 같다는 것을 나타냅니다.
최대값은 가장 큰 데이터 값입니다.
이 데이터에서 최대값은 19입니다.
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
가능한 특이치 또는 데이터 입력 오류를 식별하려면 최대값을 사용합니다. 데이터의 산포를 평가하는 가장 간단한 방법은 최소값과 최대값을 비교하는 것입니다. 최대값이 아주 큰 경우에는 데이터의 중심, 산포, 모양 외에 극단값의 원인도 조사하십시오.
신뢰 구간은 모집단 모수가 될 수 있는 값의 범위를 제공합니다. 표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 표본 추출을 여러 번 반복하면 일정한 백분율의 신뢰 구간이나 한계에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간 또는 한계의 백분율이 해당 구간의 신뢰 수준입니다. 예를 들어, 95% 신뢰 수준은 모집단에서 100개의 랜덤 표본을 추출할 경우 약 95개의 표본이 모집단 모수가 포함된 구간을 생성할 것으로 예상된다는 것을 나타냅니다.
상한은 모집단 모수가 더 작을 가능성이 높은 값을 정의합니다. 하한은 모집단 모수가 더 클 가능성이 높은 값을 정의합니다.
신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오. 자세한 내용은 더 정밀한 신뢰 구간을 구하는 방법에서 확인하십시오.
히스토그램은 표본 값을 여러 구간으로 나누고 각 구간 내 데이터 값의 빈도를 막대로 나타냅니다.
데이터의 모양과 산포를 평가하려면 히스토그램을 사용합니다. 히스토그램은 표본 크기가 20보다 클 때 가장 적합합니다.
정규 곡선과 겹쳐진 데이터 히스토그램을 사용하여 데이터의 정규성을 조사할 수 있습니다. 곡선으로 알 수 있듯이 정규 분포는 대칭이고 종 모양입니다. 일반적으로 표본 수가 적으면 정규성을 평가하기 어렵습니다. 확률도가 분포 적합도를 결정하기에 가장 좋습니다.
다른 데이터 값에서 멀리 떨어져 있는 데이터 값인 특이치는 분석 결과에 크게 영향을 미칠 수 있습니다. 일반적으로 상자 그림에서 특이치를 식별하기가 가장 쉽습니다.
특이치의 원인을 식별합니다. 모든 데이터 입력 오류 또는 측정 오류를 수정합니다. 비정상적인 일회성 사건에 대한 데이터 값을 삭제합니다(특수 원인이라고도 함). 그런 다음 분석을 반복합니다. 자세한 내용은 특이치 식별에서 확인하십시오.
다봉 데이터에는 봉우리(최빈값이라고도 함)가 여러 개 있습니다. 다봉 데이터는 보통 중요한 변수가 아직 확인되지 않았다는 것을 의미합니다.
관측치를 그룹으로 분류할 수 있는 추가 정보가 있는 경우 이 정보를 사용하여 그룹 변수를 만들 수 있습니다. 그런 다음, 그룹으로 그래프를 생성하여 그룹 변수가 데이터의 봉우리를 설명하는지 여부를 확인할 수 있습니다.
상자 그림은 표본 분포의 그래픽 요약을 제공합니다. 상자 그림은 데이터의 모양, 중심 위치 및 변동성을 보여줍니다.
데이터의 산포를 평가하고 잠재적 특이치를 식별하려면 상자 그림을 사용합니다. 상자 그림은 표본 크기가 20보다 클 때 가장 적합합니다.
데이터가 치우쳐 있는 것으로 보이는지 여부를 확인하려면 데이터의 산포를 조사합니다. 데이터가 치우쳐 있으면 대부분의 데이터가 그래프의 높은 쪽이나 낮은 쪽에 위치합니다. 일반적으로 히스토그램이나 상자 그림에서 왜도를 탐지하기가 가장 쉽습니다.
다른 데이터 값에서 멀리 떨어져 있는 데이터 값인 특이치는 분석 결과에 크게 영향을 미칠 수 있습니다. 일반적으로 상자 그림에서 특이치를 식별하기가 가장 쉽습니다.
특이치의 원인을 식별합니다. 모든 데이터 입력 오류 또는 측정 오류를 수정합니다. 비정상적인 일회성 사건에 대한 데이터 값을 삭제합니다(특수 원인이라고도 함). 그런 다음 분석을 반복합니다. 자세한 내용은 특이치 식별에서 확인하십시오.