모형 축소는 모형에서 예측 변수 또는 예측 변수 간 교호작용에 대한 항 등 항을 제거하는 것입니다. 모형 축소를 사용하면 모형을 단순화하고 예측의 정밀도를 높일 수 있습니다. 회귀 분석, 분산 분석, 실험계획법, 신뢰도 등 모든 명령 그룹에서 모형을 축소할 수 있습니다.
모형 축소의 한 가지 기준은 항의 통계적 유의성입니다. 통계적으로 유의하지 않은 항을 제거하면 모형의 예측 정밀도가 증가합니다. 통계적 유의성 기준을 사용하려면 먼저 유의 수준으로 0.05 또는 0.15를 선택하십시오. 그런 다음, 여러 항을 사용하여 통계적으로 유의한 항이 가장 많지만 통계적으로 유의하지 않은 항이 없는 모형을 찾아보십시오. 통계적 유의성 기준을 사용하려면 데이터가 모형을 적합한 후 통계적 유의성을 추정하기에 충분한 자유도를 제공해야 합니다. 통계적 유의성 기준을 수동으로, 또는 단계적 회귀 분석과 같은 알고리즘 방식의 절차를 사용하여 자동으로 적용할 수 있습니다. 통계적 유의성 기준의 목적은 목표를 충족하는 모형을 찾는 것입니다. 그러나 통계적 유의성 기준을 사용하여 항상 최적 모형 하나를 찾을 수 있는 것은 아닙니다.
Minitab에서는 통계적 유의성 기준 외에 모형에 대해 S, 수정된 R2, 예측된 R2, PRESS, Mallows의 Cp, AIC(Akaike Information Criterion) 등 다른 통계적 기준을 계산합니다. 모형을 축소할 때 이러한 기준을 하나 이상 고려할 수 있습니다.
단계적 회귀 분석과 마찬가지로, 최량 부분 집합 회귀 분석은 목표를 충족하는 모형을 찾기 위해 사용할 수 있는 알고리즘 방식의 절차입니다. 최량 부분 집합 회귀 분석은 모든 모형을 조사하고 R2 값이 가장 높은 모형을 식별합니다. Minitab에서 최량 부분 집합 회귀 분석은 수정된 R2과 예측된 R2 등 다른 통계량도 표시합니다. 모형을 비교할 때 이러한 통계량을 고려할 수 있습니다. 최량 부분 집합이 R2을 사용하기 때문에 최량 부분 집합 회귀 분석이 최적 모형으로 식별하는 모형은 통계적으로 유의한 항만을 포함하거나 포함하지 않을 수 있습니다. 모형을 축소할 때 고려할 수 있는 다른 통계적 기준으로는 다중 공선성과 계층 구조가 있습니다. 이러한 두 가지 개념은 아래에 자세히 설명되어 있습니다.
모형이 데이터를 얼마나 잘 적합시키는지 측정하는 통계량은 유용한 모형을 찾는 데 도움이 될 수 있습니다. 그러나 제거할 항을 결정하려면 공정 지식을 사용하고 적절히 판단해야 합니다. 일부 항은 필수적이지만 어떤 항은 측정하는 데 비용이 너무 많이 들거나 어려울 수 있습니다.
기술자들이 태양열 에너지 테스트의 일부로 총 열량을 측정합니다. 한 에너지 엔지니어가 총 열량이 일사량, 동쪽, 남쪽 및 북쪽 방향에서의 초점 위치, 하루 중 시간 등 다른 변수에 의해 어떻게 예측되는지 확인하려고 합니다. 완전 회귀 분석 모형을 사용함으로써 엔지니어는 총 열량과 변수 사이에 다음과 같은 관계가 있다고 결정합니다.
엔지니어는 예측의 정밀도를 최대화하기 위해 유의하지 않은 항을 최대한 많이 제거하려고 합니다. 엔지니어는 0.05를 통계적 유의성에 대한 분계점으로 사용하기로 결정합니다. 시간에 대한 p-값(0.194)이 0.05보다 큰 가장 높은 p-값이므로 엔지니어는 이 항을 제거합니다. 엔지니어는 유의하지 않은 항을 한 번에 하나씩 제거하면서 통계적으로 유의한 항들만 남을 때까지 회귀 분석을 반복합니다. 축소된 최종 모형은 다음과 같습니다.
회귀 분석의 다중 공선성은 모형의 일부 예측 변수가 다른 예측 변수와 상관되어 있을 때 발생하는 조건입니다. 중대한 다중 공선성은 회귀 계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 됩니다. 다중 공선성이 높은 항을 제거하면 상관 관계가 높은 항의 통계적 유의성과 계수 값이 크게 달라질 수 있습니다. 따라서 다중 공선성이 존재하는 경우 여러 통계량을 조사하고 모형을 한 번에 한 항씩 변경하는 것이 훨씬 더 중요합니다. 일반적으로 모형을 축소하기 전에 다중 공선성을 최대한 줄입니다. 다중 공선성을 줄이는 방법에 대한 자세한 내용은 회귀 분석의 다중 공선성에서 확인하십시오.
한 의료 시설의 팀이 환자 만족도 점수를 예측하기 위한 모형을 개발합니다. 모형에는 환자가 의사를 만나는 시간, 환자가 검사를 받는 시간 등 여러 변수가 포함됩니다. 이러한 두 가지 변수가 모형에 모두 포함된 경우 다중 공선성이 높고 VIF(분산 팽창 인수) 값이 8.91입니다. 5보다 큰 값은 일반적으로 중대한 다중 공선성을 나타냅니다. 환자가 의사를 만나는 시간에 대한 p-값은 0.105로, 0.05 수준에서 유의하지 않습니다. 이 모형에 대해 예측된 R2 값은 22.9%입니다.
검사 시간만 포함된 모형에 대해 예측된 R2 값은 22.9%에서 10.6%로 감소합니다. 환자가 의사를 만나는 시간이 0.05 수준에서 통계적으로 유의하지 않지만 해당 변수를 포함하면 예측된 R2 값이 두 배 이상 증가합니다. 다중 공선성이 높으면 예측 변수의 중요성이 안 보일 수 있습니다.
계층적 모형은 모형의 각 항에 대해 해당 항보다 차수가 낮은 항이 모두 모형에 포함되는 모형입니다. 예를 들어, 네 개의 요인 A, B, C, D가 포함된 모형이 있다고 가정합니다. 이 모형에 A*B*C 항이 있으면 A, B, C, A*B, A*C, B*C도 모형에 있어야 합니다. D가 A*B*C 항에 없기 때문에 D가 포함된 항은 모형에 있지 않아도 됩니다. 계층적 구조는 내포의 경우에도 적용됩니다. B(A)가 모형에 있는 경우 모형이 계층적이려면 A도 모형에 있어야 합니다.
계층 구조는 모형을 표준화된 단위에서 표준화되지 않은 단위로 변환할 수 있기 때문에 바람직합니다. 표준화된 단위는 표준화하면 고차항으로 인한 다중 공선성이 줄어들기 때문에 모형에 교호작용과 같은 고차항이 포함된 경우 일반적으로 사용됩니다.
계층 구조가 바람직하기 때문에 계층적 모형 축소가 사용됩니다. 예를 들어, 한 가지 방법은 p-값 기준을 계층 구조와 함께 사용하여 모형을 축소하는 것입니다. 먼저, 통계적으로 유의하지 않은 가장 복잡한 항을 제거합니다. 통계적으로 유의하지 않은 항이 교호작용 항 또는 고차항의 일부인 경우에는 항이 모형에 남습니다. Minitab의 단계적 모형 선택에서는 계층 구조 기준과 통계적 유의성 기준을 사용할 수 있습니다.
한 건축 제품 제조업체의 재료 엔지니어가 새로운 절연 제품을 개발 중입니다. 이 엔지니어는 절연체의 절연 값에 영향을 미치는 여러 요인을 평가하기 위해 2-수준 완전 요인 실험을 설계합니다. 엔지니어는 요인의 효과가 서로 종속되는지 여부를 확인하기 위해 모형에 교호작용을 포함합니다. 교호작용으로 인해 다중 공선성이 발생하기 때문에 엔지니어는 예측 변수를 코드화하여 다중 공선성을 줄입니다.
엔지니어가 조사하는 첫 번째 모형의 절연 온도와 재료의 교호작용에 대해 가장 높은 p-값은 0.985입니다. 코드화된 계수 표에서 엔지니어는 코드화된 단위로 회귀 방정식을 조사할 수 있습니다. 회귀 방정식은 엔지니어가 효과 크기를 데이터와 동일한 단위로 확인하는 데 도움이 됩니다.
엔지니어가 p-값 기준만 사용하여 모형을 축소하는 경우 3-요인 교호작용의 일부인 2-요인 교호작용을 제거하기 때문에 다음 모형은 비계층적입니다. 모형이 비계층적이기 때문에 코드화되지 않은 계수는 존재하지 않습니다. 따라서 비계층적 모형에 대한 회귀 방정식은 코드화된 단위입니다. 코드화된 회귀 방정식은 효과에 대한 정보를 데이터와 동일한 단위로 제공하지 않습니다.
p-값 기준만 사용하는 대신 엔지니어는 p-값이 높은 가장 복잡한 항을 먼저 제거하기로 결정합니다. 엔지니어는 이 모형에서 p-값이 가장 높은 항을 제거하는 대신 p-값이 가장 높은 3원 교호작용을 제거합니다. 주입압력, 주입온도, 재료 간의 3원 교호작용에 대한 p-값이 0.466으로 높습니다.