적합 회귀 모형및 선형 회귀에 대한 적합 및 진단 표

적합치

적합치는 라고도 합니다. 적합치는 지정된 예측 변수 값에 대한 평균 반응의 점 추정치입니다. 예측 변수의 값은 x-값이라고도 합니다.

해석

적합치는 데이터 집합의 각 관측치에 대한 특정 x-값을 모형 방정식에 입력하여 계산됩니다.

예를 들어, 방정식이 y = 5 + 10x이면 x-값 2에 대한 적합치는 25(25 = 5 + 10(2))입니다.

적합치가 관측치와 매우 다른 관측치는 비정상적일 수도 있습니다. 예측 변수 값이 비정상적인 관측치는 영향 관측치일 가능성이 있습니다. 데이터에 비정상적이거나 영향력 있는 값이 포함된 것으로 확인되는 경우 이러한 관측치를 식별하는 비정상적 관측치에 대한 적합치 및 진단 표가 결과에 포함됩니다. Minitab에서 표시된 비정상적인 관측치는 제시된 회귀 방정식을 잘 따르지 않습니다. 그러나 몇 개의 관측치는 비정상적일 것이라고 예상됩니다. 예를 들어, 큰 표준화 잔차 기준을 토대로 관측치의 약 5%는 큰 표준화 잔차를 가지는 것으로 표시됩니다. 비정상적인 값에 대한 자세한 내용은 비정상적 관측치에서 확인하십시오.

SE 적합치

적합치의 표준 오차(SE 적합치)는 지정된 변수 설정에 대해 추정된 평균 반응의 변동량을 추정합니다. 평균 반응의 신뢰 구간 계산에는 적합치의 표준 오차가 사용됩니다. 표준 오차는 항상 음수가 아닙니다. 분석은 메뉴의 통계분석 모형과 의 모형 선형 회귀 이항 로지스틱 회귀 분석 에 대한 표준 오차를 계산합니다. 예측 분석 모듈

해석

평균 반응의 추정치 정확도를 측정하려면 적합치의 표준 오차를 사용하십시오. 표준 오차가 작을수록 예측된 평균 반응이 더 정확합니다. 예를 들어 한 분석가가 배송 시간을 예측하는 모형을 개발합니다. 변수 설정 집합 하나에 대해 모형은 평균 배송 시간을 3.80일로 예측합니다. 해당 설정에 대한 적합치의 표준 오차는 0.08일입니다. 두 번째 변수 설정 집합에 대해 모형은 적합치의 표준 오차가 0.02일인 동일한 평균 배송 시간을 산출합니다. 분석가는 두 번째 변수 설정 집합의 평균 배송 시간이 3.80일에 가깝다는 것을 더 신뢰할 수 있습니다.

적합치의 표준 오차를 적합치와 함께 사용하여 평균 반응의 신뢰 구간을 생성할 수 있습니다. 예를 들어 95% 신뢰 구간은 자유도에 따라 예측 평균의 위아래로 표준 오차의 약 2배만큼 확장됩니다. 배송 시간의 경우 표준 오차가 0.08일 때 예측된 평균인 3.80일에 대한 95% 신뢰 구간은 (3.64, 3.96)일입니다. 모집단 평균이 이 범위 안에 있다고 95% 신뢰할 수 있습니다. 표준 오차가 0.02일 때 95% 신뢰 구간은 (3.76, 3.84)일입니다. 두 번째 변수 설정 집합의 신뢰 구간은 표준 오차가 더 작기 때문에 더 좁습니다.

적합치에 대한 신뢰 구간(95% CI)

이러한 신뢰 구간(CI)은 모형에 예측 변수 또는 요인의 관측치가 있는 모집단에 대한 평균 반응이 포함될 가능성이 높은 값의 범위입니다.

표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 표본을 여러 번 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.

신뢰 구간은 다음 두 부분으로 구성됩니다.

해석

변수의 관측치에 대한 적합치의 추정치를 평가하려면 신뢰 구간을 사용합니다.

예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모형의 예측 변수 또는 요인의 지정된 값에 대한 모평균이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 넓으면 미래 값의 평균에 대한 신뢰도가 낮다는 것을 나타냅니다. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.

잔차

잔차(e_i)는 관측치(y)와 해당하는 적합치, () 간의 차이로 모형에 의해 예측되는 값입니다.

해석

모형이 적절하고 회귀 분석의 가정을 충족하는지 여부를 확인하려면 잔차를 그림으로 표시하십시오. 잔차를 조사하면 모형이 데이터에 얼마나 잘 적합되는 지에 대한 유용한 정보를 얻을 수 있습니다. 일반적으로 잔차는 분명한 패턴이나 비정상적인 값 없이 랜덤하게 분포해야 합니다. 데이터에 비정상적인 값이 포함된 것으로 확인되는 경우 Minitab에서는 결과의 비정상적 관측치에 대한 적합치 및 진단 표에 이러한 관측치를 표시합니다. Minitab에서 비정상적으로 표시하는 관측치는 제시된 회귀 방정식을 잘 따르지 않습니다. 그러나 몇 개의 관측치는 비정상적일 것이라고 예상됩니다. 예를 들어, 큰 잔차에 대한 기준을 바탕으로, 관측치의 약 5%는 큰 잔차를 가지는 것으로 표시될 것입니다. 비정상적인 값에 대한 자세한 내용은 비정상적 관측치에서 확인하십시오.

표준화 잔차

표준화 잔차는 잔차(e_i)를 해당 표준 편차의 추정치로 나눈 값과 같습니다.

해석

표준화 잔차를 사용하면 특이치를 탐지하는 데 도움이 됩니다. 일반적으로 2보다 크거나 -2보다 작은 표준화 잔차는 큰 것으로 간주됩니다. 비정상적 관측치에 대한 적합치 및 진단 표에는 이러한 관측치가 'R'로 표시됩니다. Minitab에서 표시된 관측치는 제시된 회귀 방정식을 잘 따르지 않습니다. 그러나 몇 개의 관측치는 비정상적일 것이라고 예상됩니다. 예를 들어, 큰 표준화 잔차 기준을 토대로 관측치의 약 5%는 큰 표준화 잔차를 가지는 것으로 표시될 것입니다. 자세한 내용은 비정상적 관측치에서 확인하십시오.

원시 잔차는 특이치를 잘 나타내지 못하므로 표준화 잔차가 유용합니다. 각 잔차의 분산은 잔차와 연관된 x-값만큼 다를 수 있습니다. 이 분산이 동일하지 않아 원시 잔차의 크기를 평가하기 어렵습니다. 잔차를 표준화하면 서로 다른 분산이 공통 척도로 변환되어 이 문제가 해결됩니다.

외적 스튜던트화 잔차

각 외적 스튜던트화 잔차는 데이터 집합에서 각 관측치를 체계적으로 제거하고 회귀 방정식을 추정하며 모형이 제거된 관측치를 얼마나 잘 예측하는지 결정하는 것과 동일한 공식을 사용하여 계산됩니다. 각 외적 스튜던트화 잔차는 또한 관측치의 외적 잔차를 잔차의 표준 편차 추정치로 나누어 표준화됩니다. 이 관측치가 없다면 모형이 어떻게 되는지 보기 위해 관측치를 제외합니다. 외적 스튜던트화 잔차가 큰 관측치(절대값이 2보다 큰 경우)는 특이치일 수 있습니다.

해석

특이치를 탐지하려면 외적 스튜던트화 잔차를 사용하십시오. 각 관측치는 해당 관측치가 모형 적합 절차에 포함되지 않을 때 모형이 반응을 얼마나 잘 적합하는지 확인하기 위해 제외됩니다. 일반적으로 2보다 크거나 -2보다 작은 외적 스튜던트화 잔차는 큰 것으로 간주됩니다. Minitab에서 표시된 관측치는 제시된 회귀 방정식을 잘 따르지 않습니다. 그러나 몇 개의 관측치는 비정상적일 것이라고 예상됩니다. 예를 들어, 큰 잔차에 대한 기준을 바탕으로, 관측치의 약 5%는 큰 잔차를 가지는 것으로 표시될 것입니다. 분석 결과 많은 비정상적 관측치가 확인되면 모형이 예측 변수와 반응 변수의 관계를 적절하게 설명하지 못한다는 의미입니다. 자세한 내용은 비정상적 관측치에서 확인하십시오.

표준화 및 외적 스튜던트화 잔차는 특이치를 식별하는 데 있어 원시 잔차보다 더 유용할 수 있습니다. 이러한 잔차는 예측 변수 또는 요인의 값으로 인한 원시 잔차 분산의 가능한 차이에 따라 조정됩니다.

Hi(레버리지)

Hi(레버리지라고도 함)는 한 관측치의 x-값으로부터 데이터 집합 내 모든 관측치의 평균 x-값까지의 거리를 나타냅니다.

해석

Hi 값은 0과 1 사이입니다. Minitab에서는 레버리지 값이 3p/n과 0.99 중 작은 수보다 큰 관측치를 식별합니다. 이러한 관측치는 비정상 관측치 표에 대한 적합치 및 진단에 X로 표시되어 있습니다. 3p/n에서 p는 모형 내 계수의 수이고 n은 관측치의 수입니다. Minitab에서 'X' 레이블로 표시하는 관측치는 영향 관측치일 가능성이 있습니다.

영향력 있는 관측치는 모형에 불균형적인 영향을 미치며 잘못된 결과를 얻을 수 있습니다. 예를 들어, 영향력 있는 점을 포함하거나 제외함에 따라 계수가 통계적으로 유의하거나 유의하지 않은지 여부가 달라질 수 있습니다. 영향력 있는 관측치는 레버리지 점, 특이치 또는 둘 다일 수 있습니다.

영향력 있는 관측치가 표시되면 관측치가 데이터 입력 오류인지 측정 오류인지 확인합니다. 관측치가 데이터 입력 오류도 아니고 측정 오류도 아니면 관측치의 영향을 확인합니다. 먼저, 관측치를 포함하거나 포함하지 않고 모형을 적합합니다. 그런 다음 계수, p-값, R² 및 기타 모형 정보를 비교합니다. 영향력 있는 관측치를 제거한 경우 모형이 크게 달라지면 모형을 추가로 조사하여 모형을 잘못 지정했는지 확인합니다. 이 문제를 해결하기 위해 데이터를 추가로 수집해야 할 수도 있습니다.

Cook의 거리(D)

Cook의 거리(D)는 관측치가 선형 모형의 계수 집합에 미치는 영향을 측정합니다. Cook의 거리는 레버리지 값과 각 관측치의 표준화 잔차를 모두 고려하여 관측치의 영향을 확인합니다.

해석

D가 큰 관측치는 영향 관측치로 간주할 수 있습니다. 큰 D-값에 대해 일반적으로 사용되는 기준은 D가 F-분포: F(0.5, p, n-p)의 중위수보다 큰 경우입니다(여기서 p는 상수를 포함한 모형 항의 수이며, n는 관측치의 수입니다). D-값을 조사하는 또 하나의 방법은 개별 값 그림과 같은 그래프를 사용하여 서로 비교하는 것입니다. 다른 관측치에 비해 D-값이 큰 관측치는 영향 관측치일 가능성이 있습니다.

영향력 있는 관측치는 모형에 불균형적인 영향을 미치며 잘못된 결과를 얻을 수 있습니다. 예를 들어, 영향력 있는 점을 포함하거나 제외함에 따라 계수가 통계적으로 유의하거나 유의하지 않은지 여부가 달라질 수 있습니다. 영향력 있는 관측치는 레버리지 점, 특이치 또는 둘 다일 수 있습니다.

영향력 있는 관측치가 표시되면 관측치가 데이터 입력 오류인지 측정 오류인지 확인합니다. 관측치가 데이터 입력 오류도 아니고 측정 오류도 아니면 관측치의 영향을 확인합니다. 먼저, 관측치를 포함하거나 포함하지 않고 모형을 적합합니다. 그런 다음 계수, p-값, R² 및 기타 모형 정보를 비교합니다. 영향력 있는 관측치를 제거한 경우 모형이 크게 달라지면 모형을 추가로 조사하여 모형을 잘못 지정했는지 확인합니다. 이 문제를 해결하기 위해 데이터를 추가로 수집해야 할 수도 있습니다.

DFITS

DFITS는 각 관측치가 선형 모형의 적합치에 미치는 영향을 측정합니다. DFITS는 각 관측치를 데이터 집합에서 제거하고 모형을 다시 적합시킬 때 적합치가 변하는 표준 편차의 개수를 대략적으로 나타냅니다.

해석

DFITS 값이 큰 관측치는 영향 관측치일 가능성이 있습니다. DFITS 값에 일반적으로 사용되는 기준은 DFITS가 다음 값보다 큰 경우입니다.

용어	설명
p	모형 항의 수
n	관측치 수

영향력 있는 관측치는 모형에 불균형적인 영향을 미치며 잘못된 결과를 얻을 수 있습니다. 예를 들어, 영향력 있는 점을 포함하거나 제외함에 따라 계수가 통계적으로 유의하거나 유의하지 않은지 여부가 달라질 수 있습니다. 영향력 있는 관측치는 레버리지 점, 특이치 또는 둘 다일 수 있습니다.

영향력 있는 관측치가 표시되면 관측치가 데이터 입력 오류인지 측정 오류인지 확인합니다. 관측치가 데이터 입력 오류도 아니고 측정 오류도 아니면 관측치의 영향을 확인합니다. 먼저, 관측치를 포함하거나 포함하지 않고 모형을 적합합니다. 그런 다음 계수, p-값, R² 및 기타 모형 정보를 비교합니다. 영향력 있는 관측치를 제거한 경우 모형이 크게 달라지면 모형을 추가로 조사하여 모형을 잘못 지정했는지 확인합니다. 이 문제를 해결하기 위해 데이터를 추가로 수집해야 할 수도 있습니다.

Durbin-Watson 통계량

Durbin-Watson 통계량을 사용하여 회귀 모형의 오차에 자기 상관이 있는지 검정할 수 있습니다. 자기 상관은 인접 관측치의 오차가 상관되어 있음을 의미합니다. 오차가 상관되면 최소 제곱법이 계수의 표준 오차를 과소 추정할 수 있습니다. 표준 오차가 과소 추정되면 예측 변수가 유의하지 않은데 유의한 것으로 보일 수 있습니다.

해석

Durbin-Watson 통계량은 인접한 오차항 사이의 상관 계수가 0인지 여부를 확인합니다. 검정을 통해 결론을 내리려면 표시된 통계량을 표의 상한 및 하한과 비교해야 합니다. 최대 200개의 표본 크기 및 최대 21개 항에 대한 표를 보려면 Durbin-Watson 통계량을 사용하여 자기 상관 검정으로 이동하십시오.

Durbin-Watson 통계량은 1차 자기 상관을 검정합니다. 다른 시간 순서 패턴을 확인하려면 잔차 대 데이터 순서의 그림을 보십시오.

검정 데이터 세트의 적합 및 진단

Minitab은 학습 데이터 세트과 검정 데이터 세트에 대해 적합 및 진단을 별도로 계산합니다. 검정 데이터 세트에 대한 통계는 모형 적합 프로세스와 독립적입니다.

해석

일반적으로 학습 데이터 세트에 해당 통계를 사용하는 것과 동일한 방식으로 검정 데이터 세트의 적합 및 진단을 사용합니다. 적합 및 신뢰 구간을 검사하여 추정치의 정밀도를 확인합니다. 잔차를 검사하여 오차의 양을 확인합니다. 비정상적인 데이터 점을 검사하여 모형이 적합하지 않을 수 있는 예측 변수 값을 확인합니다.

한 가지 차이점은 검정 세트의 비정상적인 관찰이 모형의 추정에 영향을 미치지 않는다는 것입니다. 대신 레버리지가 높은 점은 검정 데이터 세트가 학습 데이터 집합에 대한 외삽을 나타내는 위치를 나타냅니다. 모형 추정에서 데이터 영역에서 외삽할 때는 주의해야 합니다.

Minitab은 검정 데이터 세트에 대해 외적 스튜던트화 잔차, Cook의 D 또는 DFITS를 표시하지 않습니다. 외적 스튜던트화 잔차는 관측치가 모형 적합 프로세스에 없을 때 모형이 반응을 얼마나 잘 예측하는지 보여줍니다. Cook의 D는 관측치가 선형 모형의 계수 집합에 미치는 영향을 측정합니다. DFITS는 각 관측치가 선형 모형의 적합치에 미치는 영향을 측정합니다. 검정 데이터 세트의 관측치 중 어느 것도 모형 적합 프로세스에 없기 때문에 이러한 통계 중 어느 것도 검정 데이터 세트에 대한 해석을 갖지 않습니다.

적합 회귀 모형및 선형 회귀에 대한 적합 및 진단 표

이 항목의 내용

적합치

해석

SE 적합치

해석

적합치에 대한 신뢰 구간(95% CI)

해석

잔차

해석

표준화 잔차

해석

외적 스튜던트화 잔차

해석

Hi(레버리지)

해석

Cook의 거리(D)

해석

DFITS

해석

Durbin-Watson 통계량

해석

검정 데이터 세트의 적합 및 진단

해석