적합 회귀 모형와 선형 회귀에 대한 주요 결과를 해석해보세요

회귀 모델을 해석하려면 다음 단계를 완료하십시오. 주요 결과에는 p-값, 계수, R²및 잔차 그림이 포함됩니다.

이 항목의 내용

1단계: 반응의 변동에 가장 기여하는 항 확인
2단계: 반응과 항 간의 연관성이 통계적으로 유의한지 여부 확인
3단계: 모형이 데이터를 얼마나 잘 적합시키는지 확인
4단계: 모형이 분석의 가정을 충족하는지 여부 확인
5단계: 적합 모형 사용

1단계: 반응의 변동에 가장 기여하는 항 확인

효과의 Pareto 차트를 사용하여 항의 상대적 크기 및 통계적 유의성을 비교할 수 있습니다. 모형이 오차에 대한 자유도를 남길 때 이 차트가 표시됩니다.

Minitab은 각 항의 절대값을 내림차순으로 표시합니다. 이때 차트의 기준선은 유의한 항을 나타냅니다. 기본적으로 Minitab에서는 0.05의 유의 수준을 사용하여 기준선을 그립니다.

주요 결과: Pareto 차트

이 결과에서 세 항은 통계적으로 유의합니다(α = 0.05). 유의한 효과는 포름알데히드 농도(A), 촉매 비율(B) 및 온도(C)입니다. 시간에 대한 효과(D)는 막대가 빨간색 선을 지나 확장하지 않기 때문에 통계적으로 유의하지 않습니다.

막대의 길이가 가장 길기 때문에 촉매 비율(B)의 효과가 가장 큽니다. 시간 막대(D)의 길이는 가장 짧기 때문에 효과가 가장 작습니다.

2단계: 반응과 항 간의 연관성이 통계적으로 유의한지 여부 확인

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항과 반응 간에 연관성이 없다는 것입니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시함)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.

p-값 ≤ α: 연관성이 통계적으로 유의합니다.: p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않습니다.: p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.; 반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.

모형 항이 통계적으로 유의하면 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.

계량형 예측 변수가 유의하면 예측 변수에 대한 계수가 0이 아니라는 결론을 내릴 수 있습니다.
범주형 예측 변수가 유의하면 일부 수준 평균이 같지 않다는 결론을 내릴 수 있습니다.
교호작용 항이 유의하면 예측 변수와 반응 간의 관계가 항의 다른 예측 변수에 따라 다르다는 결론을 내릴 수 있습니다.
다항식 항이 유의하면 데이터에 곡면성이 포함되어 있다는 결론을 내릴 수 있습니다.

계수

항	계수	SE 계수	T-값	P-값	VIF
상수	-0.756	0.736	-1.03	0.314
농도	0.1545	0.0633	2.44	0.022	1.03
비율	0.2171	0.0316	6.86	0.000	1.02
온도	0.01081	0.00462	2.34	0.027	1.04
시간	0.0946	0.0546	1.73	0.094	1.00

주요 결과: p-값, 계수

예측 변수인 포름알데히드 농도, 촉매 비율 및 온도의 p-값은 유의 수준인 0.05보다 낮습니다. 이런 결과는 예측 변수들이 주름 방지와 통계적으로 유의한 관계가 있음을 나타냅니다. 예를 들어 포름알데히드 농도 계수는 농도가 1단위씩 증가할 때마다 평균 주름 방지가 0.1545단위 증가하는 한편, 모형의 나머지 항들은 일정하게 유지된다고 추정합니다.

시간의 p-값은 0.05보다 커서 시간이 반응과 관련이 있다는 결론을 내릴 증거가 충분하지 않음을 나타냅니다. 화학자는 이 예측 변수 없이 모형을 다시 적합화해야 할 수 있습니다.

3단계: 모형이 데이터를 얼마나 잘 적합시키는지 확인

모형이 데이터를 얼마나 잘 적합시키는지 확인하려면 모형 요약 표의 적합도 통계량을 조사합니다.

S

S는 모형이 반응을 얼마나 잘 설명하는지 평가하기 위해 사용합니다. 상수가 없는 모형의 적합치를 비교하려면 R² 통계량 대신 S를 사용합니다.

S는 반응 변수 단위로 측정되며, 데이터 값이 적합치로부터 얼마나 떨어져 있는지 나타냅니다. S의 값이 낮을수록 모형이 반응을 더 잘 설명합니다. 그러나 낮은 S 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 가정을 확인하려면 잔차 그림을 확인해야 합니다.

R-제곱

R² 값이 클수록 모형이 데이터를 더 잘 적합시킵니다. R²은 항상 0%에서 100% 사이입니다.

모형에 예측 변수를 추가하면 R²은 항상 증가합니다. 예를 들어, 최량 예측 변수가 5개인 모형은 최량 예측 변수가 4개인 모형보다 항상 R² 값이 큽니다. 따라서 R²은 같은 크기의 모형을 비교할 때 가장 유용합니다.

R-제곱(수정)

예측 변수 수가 다른 여러 모형을 비교하려면 수정 R²을 사용합니다. 모형에 예측 변수를 추가하면 모형이 실제로 개선되지 않더라도 R²은 항상 증가합니다. 수정 R² 값은 모형의 예측 변수 수에 통합되어 올바른 모형을 선택하는 데 도움이 됩니다.

R-제곱(예측)

모형의 새 관측치에 대한 반응을 얼마나 잘 예측하는지 확인하려면 예측 R²을 사용합니다.모형의 예측 R² 값이 클수록 예측 능력이 더 좋습니다.

예측 R²이 R²보다 상당히 작으면 모형이 과다 적합하다는 것을 나타낼 수도 있습니다. 모집단에서 중요하지 않은 효과에 대한 항을 추가할 경우 과다 적합 모형이 발생할 수 있습니다. 모형이 표본 데이터에 따라 조정되므로, 모집단에 대해 예측 시 유용하지 않을 수도 있습니다.

예측 R²은 또한 모형 계산에 포함되지 않은 관측치를 사용하여 계산되므로, 모형을 비교할 때 수정 R²보다 유용할 수 있습니다.

AICc 및 BIC

단계적 방법의 각 단계에 대한 자세한 내용을 표시하거나 분석의 확장된 결과를 표시할 때 Minitab에서는 두 개의 통계량을 더 표시합니다. 이들 통계량은 교정된 AICc(Akaike Information Criterion) 및 BIC(Bayesian Information Criterion)입니다. 여러 모형을 비교하려면 이들 통계량을 사용하십시오. 각 통계량에 대해 작은 값을 사용하는 것이 바람직합니다.

적합도 통계량을 해석할 때 다음과 같은 점을 고려하십시오.

작은 표본은 반응과 예측 변수 간 관계의 강도에 대한 정확한 추정치를 제공하지 않습니다. 예를 들어, 더 정확한 R²이 필요하면 더 큰 표본을 사용해야 합니다(일반적으로 40 이상).
적합도 통계량은 모형이 데이터를 얼마나 잘 적합시키는 지에 대한 하나의 측도에 지나지 않습니다. 모형에 바람직한 값이 있더라도 해당 모형이 모형 가정을 충족하는지 확인하려면 잔차 그림을 확인해야 합니다.

모형 요약

S	R-제곱	R-제곱(수정)	R-제곱(예측)
0.811840	72.92%	68.90%	62.81%

주요 결과: S, R-제곱, R-제곱(조정), R-제곱(예측)

이 결과에서는 모형이 반응 변동의 약 73%를 설명합니다. 이 데이터에 대해 R² 값은 모형이 데이터에 충분한 적합도를 제공함을 나타냅니다. 예측 변수가 다른 추가 모형을 적합화하는 경우, 수정된 R² 값과 예측된 R² 값을 사용하여 모형이 데이터에 얼마나 적합한지 비교하십시오.

4단계: 모형이 분석의 가정을 충족하는지 여부 확인

모형이 적절하고 분석의 가정을 충족하는지 여부를 확인하려면 잔차 그림을 사용합니다. 가정이 충족되지 않으면 모형이 데이터에 적합하지 않은 것이므로 결과를 해석할 때 주의해야 합니다.

잔차 그림의 패턴을 처리하는 방법에 대한 자세한 내용을 보려면 적합 회귀 모형및 선형 회귀에 대한 잔차 그림으로 이동하여 페이지 상단의 리스트에서 잔차 그림의 이름을 클릭하십시오.

잔차 대 적합치 그림

잔차가 랜덤하게 분포되어 있고 잔차의 분산이 일정하다는 가정을 확인하려면 잔차 대 적합치 그림을 사용하십시오. 이상적으로는 점들이 식별 가능한 패턴 없이 0의 양쪽에 랜덤하게 분포해야 합니다.

다음 표의 패턴들은 모형이 모형 가설을 충족하지 않음을 나타낼 수 있습니다.

패턴	패턴이 나타내는 내용
적합치에 대해 잔차가 부채꼴 모양으로 흩어져 있거나 고르지 않게 퍼져 있음	일정하지 않은 분산
곡선	고차 항 누락
한 점이 0에서 멀리 떨어져 있음	특이치
다른 점에서 x 방향으로 멀리 떨어져 있는 점	영향력 있는 점

이 잔차 대 적합치 그림의 점들은 0 주위에 임의로 분포된 것으로 보이지 않습니다. 서로 다른 데이터 그룹을 나타낼 수 있는 점의 군집들이 있는 것으로 보입니다. 데이터 그룹을 조사하여 원인을 확인해야 합니다.

잔차 대 순서 그림

잔차가 서로 독립적이라는 가정을 확인하려면 잔차 대 순서 그림을 사용하십시오. 독립 잔차는 시간순으로 표시될 때 아무런 추세나 패턴을 보이지 않습니다. 점들의 패턴은 서로 가까이 있는 잔차가 상관되어 있으며, 따라서 독립적이 아닐 수도 있음을 나타냅니다. 이상적으로는 그림의 잔차들이 중심선 주위에 랜덤하게 분포해야 합니다.