분산 분석 정의

분산 분석(ANOVA)은 두 개 이상의 모집단 평균이 같다는 가설을 검정합니다. 분산 분석은 여러 요인 수준에서 반응 변수 평균을 비교함으로써 하나 이상의 요인에 대한 중요성을 평가합니다. 귀무 가설은 모든 모집단 평균(요인 수준 평균)이 같지만 대립 가설이 하나 이상 다르다는 것입니다.

분산 분석을 수행하려면 계량형 반응 변수 및 수준이 둘 이상인 범주형 요인이 하나 이상 있어야 합니다. 분산 분석에는 요인 수준 간의 분산이 같은 대략적인 정규 분포 모집단의 데이터가 필요합니다. 그러나 분산 분석 절차는 하나 이상의 분포가 심하게 치우치거나 분산이 크게 다르지 않은 한 정규성 가정이 위반되더라도 잘 작동합니다. 원래 데이터 집합을 변환하면 이러한 위반 문제가 해결될 수 있습니다.

예를 들어, 네 가지 시험용 카페트 제품의 내구성을 평가하기 위한 실험을 계획하고 있습니다. 10개 가정에 각 카페트 유형의 표본을 설치하고 60일 후에 카페트의 내구성을 측정합니다. 한 요인(카페트 유형)을 조사하기 때문에 일원 분산 분석을 사용합니다.

p-값이 알파보다 작으면 내구성 평균이 하나 이상 다르다는 결론을 내립니다. 특정 평균들 사이의 차이를 추가로 확인하려면 Tukey 검정과 같은 다중 비교 방법을 사용하십시오.

"분산 분석"이라는 이름은 평균이 다른지 여부를 결정하기 위해 분산을 사용하는 방법을 본따 붙여진 것입니다. 분산 분석 절차는 모든 그룹이 더 큰 모집단의 일부인지 또는 각 그룹이 고유한 특성을 가진 별개 모집단인지 결정하기 위해 그룹 평균 간 분산과 그룹 내 분산을 비교하는 방식으로 실행됩니다.