2-표본 평균에 대한 부트스트래핑에 대한 부트스트랩 표본 통계량 및 그래프

2-표본 평균에 대한 부트스트래핑과 함께 제공되는 모든 부트스트랩 표본 통계량 및 그래프에 대한 정의 및 해석 방법을 확인해 보십시오.

히스토그램

히스토그램은 표본 값을 여러 구간으로 나누고 각 구간 내 데이터 값의 빈도를 막대로 나타냅니다.

해석

히스토그램을 사용하여 부트스트랩 분포 형상을 조사합니다. 부트스트랩 분포는 각 재표본 평균 차이에 대한 분포입니다. 부트스트랩 분포는 정규 분포로 표시되어야 합니다. 부트스트랩 분포가 정규 분포가 아닐 경우 해당 결과를 신뢰할 수 없습니다.
50개의 재표본
1000개의 재표본

보통 분포는 재표본이 더 많을 때 확인하기 더 쉽습니다. 예를 들어, 이러한 데이터에서 분포는 50개의 재표본에 대해 여러 가지로 해석할 수 있습니다. 재표본이 1000개인 경우 형상은 거의 정규 분포에 가깝습니다.

이 히스토그램에서 부트스트랩 분포는 정규 분포처럼 나타납니다.

개별 값 그림

개별 값 그림은 표본 내 개별 값을 표시합니다. 각 원은 하나의 관측치를 나타냅니다. 개별 값 그림은 관측치 수가 비교적 적고 각 관측치의 영향도 평가해야 하는 경우 특히 유용합니다.

참고

Minitab은 재표본을 하나만 가져온 경우 개별 값 그림만 표시합니다. Minitab은 원래 데이터와 재표본 데이터를 모두 표시합니다.

해석

표본 크기가 큰 경우 보통 부트스트랩 표본은 원본 표본과 비슷한 중심 및 산포를 나타냅니다. 하지만, 표본 크기가 작은 경우 부트스트랩 표본이 원본 표본과 비슷하지 않게 될 수도 있습니다. 부트스트랩 표본이 원본 표본과 비슷하게 보이지 않을 경우 표본 크기를 늘리는 것을 고려해야 합니다.
표본 8의 크기
표본 50의 크기

재표본 수

재표본 수는 Minitab이 원래 데이터 집합에서 복원으로 랜덤 표본을 가져오는 횟수입니다. 보통 많은 수의 재표본이 가장 적합한 방법입니다. 각 재표본의 표본 크기는 원래 데이터 집합의 표본 크기와 같습니다. 재표본 수는 히스토그램에 있는 관측치 수와 같습니다.

평균

평균은 재표본 수로 나눈 부트스트래핑 표본의 모든 평균 차이 합입니다.

해석

Minitab은 평균의 차이에 대해 관측 표본 차이와 부트스트랩 분포(평균) 차이 이렇게 두 값을 표시합니다. 이 두 값 모두 모평균 차이의 추정치이며 보통 비슷합니다. 이 두 값 사이에 차이가 클 경우 원래 표본의 표본 크기를 늘려야 합니다.

평균은 전체 모집단이 아니라 표본 데이터를 기반으로 하기 때문에 평균이 모평균 차이와 같을 가능성은 없습니다. 모집단 평균 차이를 더 잘 추정하려면 신뢰 구간을 사용하십시오.

표준 편차(부트스트랩 표본)

표준 편차는 산포, 즉 데이터가 평균을 중심으로 퍼져 있는 정도를 나타내는 가장 일반적인 측도입니다. 모집단의 표준 편차를 나타내는 데는 σ(시그마) 기호를 자주 사용하는 반면, 표본의 표준 편차를 나타내는 데는 s를 사용합니다. 랜덤이 아니거나 공정에 자연스럽지 못한 변동은 종종 잡음이라고 합니다. 표준 편차는 데이터와 단위가 같기 때문에 일반적으로 분산보다 더 쉽게 해석할 수 있습니다.

부트스트랩 표본의 표준 편차(부트스트랩 표준 오차라고도 함)는 평균의 차이의 표본 추출 분포에 대한 표준 편차 추정치입니다.

해석

부트스트랩 표본에서 차이가 전체 차이의 평균을 중심으로 퍼져 있는 정도를 확인하려면 표준 편차를 사용합니다. 표준 편차 값이 클수록 차이가 더 퍼져 있다는 것을 나타냅니다. 정규 분포에 대한 일반 규칙은 대략 68%의 값이 전체 차이의 평균으로부터 1 표준 편차 거리 내에 있고, 95%의 값이 2 표준 편차 거리 내에 있고, 99.7%의 값이 3 표준 편차 거리 내에 있다는 것입니다.

부트스트랩 표본의 표준 편차를 사용하여 부트스트랩 표본의 차이가 평균의 모집단 차이를 얼마나 정확하게 추정하는지 확인할 수 있습니다. 값이 작을수록 모집단 차이의 더 정확한 추정치를 나타냅니다. 일반적으로 부트스트랩 표준 편차가 클수록 차이의 표준 오차가 커지고 모집단 차이의 추정치가 덜 정확하게 됩니다. 표본 크기가 클수록 부트스트랩 표준 오차가 더 작고 모집단 차이의 추정치가 더 정확하게 됩니다.

신뢰 구간(CI) 및 한계

신뢰 구간은 통계량의 표본 추출 분포를 근거로 합니다. 통계량에 모수 추정량으로의 치우침이 없는 경우 해당 표본 추출 분포는 모수의 참 값 중심에 위치합니다. 부트스트래핑 분포는 통계량에 대한 표본 추출 분포와 근사합니다. 따라서 부트스트래핑 분포 값의 중간 95%는 모수에 대한 95% 신뢰 구간을 제공합니다. 신뢰 구간은 모집단 모수 추정치의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오.

참고

Minitab은 재표본 수가 너무 작아서 정확한 신뢰 구간을 얻을 수 없는 경우 신뢰 구간을 계산하지 않습니다.

관측된 표본

병원N평균표준 편차분산최소값중위수최대값
A2080.308.1866.9662.0079.0098.00
B2059.3012.43154.5435.0058.5089.00

관측된 평균의 차이

A의 평균 - B의 평균 = 21

평균의 차이에 대한 부트스트랩 표본

재표본 개수평균표준 편차차이에 대한 95% CI
100020.9603.279(14.400, 27.600)

이 결과에서 모수 차이에 대한 추정치는 20.96입니다. 모수 차이가 14.4와 27.6 사이에 있다고 95% 확신할 수 있습니다.