일반 선형 모형 적합에 대한 데이터 고려사항

유효한 결과를 얻으려면 데이터를 수집하고 분석을 수행하거나 결과를 해석할 때 다음 지침을 따르십시오.

데이터에 하나 이상의 범주형 요인이 포함되어야 합니다.

범주형 요인은 교차 및 내포 요인, 고정 및 변량 요인일 수 있습니다.

변량 요인이 포함된 모형의 경우 일반적으로 REML(Restricted Maximum Likelihood) 추정 방법을 사용할 수 있도록 혼합 효과 모형 적합을 사용합니다.
하나의 범주형 요인이 있고 계량형 예측 변수가 없는 경우에도 일원 분산 분석을 사용할 수 있습니다.
대부분 계량형 예측 변수가 있으면 적합 회귀 모형을 사용하여 유사한 모형 결과를 얻을 수 있습니다.
하나 또는 두 개의 범주형 요인이 있고 수준 평균을 정규, 이항 또는 포아송 분포를 따르는 데이터에 대한 전체 평균과 비교하려면 평균 분석을 사용하십시오.
그룹 간 표준 편차의 동일성을 검정하려면 등분산 검정을 사용하십시오.

반응 변수가 계량형이어야 함

반응 변수가 범주형이면 모형이 분석의 가정을 충족하거나 데이터를 정확히 설명하거나 유용한 예측을 할 가능성이 적습니다.

상관된 여러 개의 반응 변수 및 공통된 요인 집합이 있으면 검정력이 더 높고 다변량 반응 패턴을 탐지할 수 있는 일반 다변량 분산 분석을 사용하십시오.
반응 변수에 두 개의 범주가 있으면(예: 통과 및 실패) 이항 로지스틱 모형 적합을 사용하십시오.
반응 변수에 자연스러운 순서를 갖는 세 개 이상의 범주가 있으면(예: 적극 반대, 반대, 중립, 찬성, 적극 찬성) 순서형 로지스틱 회귀 분석을 사용하십시오.
반응 변수에 자연스러운 순서를 갖지 않는 세 개 이상의 범주가 있으면(예: 긁힘, 패임, 찢어짐) 명목형 로지스틱 회귀 분석을 사용하십시오.
반응 변수가 발생 횟수를 카운트하면(예: 결점 수) 포아송 모형 적합을 사용하십시오.

각 관측치가 다른 모든 관측치로부터 독립적이어야 함

관측치가 종속되면 결과가 유효하지 않을 수도 있습니다. 관측치가 독립적인지 여부를 확인하려면 다음과 같은 점을 고려하십시오.

표본 데이터는 랜덤하게 선택해야 합니다.

랜덤 표본은 모집단에 대한 일반화 또는 추론을 작성하기 위해 사용됩니다. 데이터가 랜덤하게 수집되지 않은 경우에는 결과가 모집단을 나타내지 않을 수 있습니다.

최적의 경험을 사용한 데이터 수집

유효한 결과를 얻으려면 다음 지침을 따르십시오.

예측 변수 간의 상관(다중 공선성이라고도 함)이 심각하지 않아야 합니다.

다중 공선성이 심각하면 모형에 포함할 예측 변수를 결정하지 못할 수도 있습니다. 다중 공선성의 심각성을 확인하려면 결과의 계수 표에 있는 분산 팽창 인수(VIF)를 사용하십시오.

모형이 데이터를 잘 적합해야 함

모형이 데이터를 적합시키지 않으면 잘못된 결과를 얻을 수 있습니다. 결과에서 잔차 그림, 비정상적인 관측치에 대한 진단 통계량 및 모형 요약 통계량을 사용하여 모형이 데이터를 얼마나 잘 적합시키는지 확인하십시오.