부분 최소 제곱법에 대한 그래프

PLS와 함께 사용 가능한 모든 그래프에 대한 정의 및 해석 방법을 확인해 보십시오.

모형 선택 그림

모형 선택 그림은 적합 또는 교차 검증된 성분 수에 따라 달라지는 R2 및 예측 R2 값의 산점도입니다. 이것은 모형 선택 및 검증표를 그래프로 나타낸 것입니다. 교차 검증을 사용하지 않으면 예측 R2 값이 그림에 표시되지 않습니다. Minitab은 반응 변수마다 모형 선택 그림을 하나씩 제공합니다.

해석

이 그림을 사용하여 여러 가지 모형의 모형화 능력과 예측 능력을 비교하고 모형에 유지할 적절한 성분 수를 결정할 수 있습니다. 그림의 수직선은 Minitab이 PLS 모형에 대해 선택한 성분 수를 나타냅니다.

이 그림에서는 교차 검증을 사용하여 성분을 선택하지 않습니다. Minitab은 기본 10개 성분을 적합시키고 그림의 각 모형에 대해 R2 값을 표시합니다.
이 그림에서는 교차 검증을 사용하여 모형을 선택했습니다. 파란색 원은 R2 값을 나타내고 빨간색 사각형은 각 모형에 대해 예측된 R2 값을 나타냅니다. Minitab에서는 예측 R2가 가장 높기 때문에 성분이 4개인 모형을 선택했습니다.

반응도

반응도는 적합치 대 실제 반응의 산점도입니다. 교차 검증을 수행하면 그림에 적합치 대 교차 검증된 적합치도 포함됩니다. Minitab에서는 반응 변수별로 반응도를 하나씩 제공합니다.

해석

이 그림은 모형이 각 관측치를 적합하고 예측하는 정도를 확인하기 위해 사용합니다. 이 그림을 조사할 때는 다음 사항을 찾아보십시오.
  • 모형이 데이터를 잘 적합하거나 예측하지 않을 수 있음을 나타내는 점의 비선형 패턴
  • 교차 검증을 수행하는 경우 레버리지 점을 나타내는 적합치 및 교차 검증된 값의 큰 차이

예측 능력이 우수한 모형은 일반적으로 기울기가 1이고 0에서 y-축이 교차합니다.

첫 번째 그림의 점들은 선형 패턴을 따르므로 모형이 데이터를 잘 적합하고 반응 값을 정확하게 예측함을 나타냅니다. 두 번째 그림에서는 교차 검증이 사용되었으므로 적합치와 교차 검증된 적합치가 모두 그림에 표시됩니다. 이 그림은 적합치와 교차 검증된 적합 반응값의 차이를 나타내지 않습니다.

계수도

계수도는 각 예측 변수의 표준화되지 않은 계수를 보여주는 투영된 산점도입니다. Minitab은 반응 변수별로 계수도를 하나씩 제공합니다.

해석

계수 그림을 회귀 계수의 출력과 함께 사용하여 각 예측 변수에 대한 계수의 부호와 크기를 비교할 수 있습니다. 이 그림을 사용하면 모형에서 예측 변수의 중요성을 신속하게 확인할 수 있습니다.

그림에는 표준화되지 않은 계수가 표시되기 때문에 예측 변수들의 척도가 같은 경우에만(예: 분광 데이터) 예측 변수와 반응 변수의 관계 크기를 비교할 수 있습니다. 예측 변수들의 척도가 같지 않으면 표준화 계수도를 사용하거나 적재 그림을 사용하여 성분 계산에 사용된 예측 변수의 중요성을 비교할 수 있습니다.

이 그림에서 예측 변수(분광 데이터)들의 척도는 같습니다. 1 - 40의 파장이 반응 값에 가장 큰 영향을 미침을 나타냅니다.

표준 계수도

계수도는 각 예측 변수에 대해 표준화된 계수를 보여주는 투영된 산점도입니다. Minitab은 반응 변수별로 표준 계수도를 하나씩 제공합니다.

해석

이 그림을 회귀 계수의 출력과 함께 사용하여 각 예측 변수에 대한 계수의 부호와 크기를 비교할 수 있습니다. 이 그림을 사용하면 모형에서 예측 변수의 중요성을 신속하게 확인할 수 있습니다.

그림에는 표준화된 계수가 표시되기 때문에 예측 변수들의 척도가 같지 않아도 예측 변수와 반응 변수 간의 관계 크기를 비교할 수 있습니다.

예측 변수들의 척도가 같으면 표준화된 그림과 표준화되지 않은 그림의 계수 패턴은 비슷하게 나타납니다. 그러나 예측 변수들의 깊은 상관 관계로 인한 일정하지 않은 계수와 표본 표준 편차와 모 표준 편차의 차이 때문에 두 그래프는 똑같지 않을 수 있습니다.

이 그림에서 막대가 가장 긴 원소는 표준화 계수가 가장 크고 향에 가장 큰 영향을 미칩니다. 중심선 위의 원소들은 향과 양의 관계가 있는 반면, 중심선 아래의 원소들은 음의 관계가 있습니다.

거리 그림

거리 그림은 x-모형 및 y-모형에서 각 관측치까지의 거리에 대한 산점도입니다. y-모형으로부터의 거리는 y-공간에서 관측치가 적합된 정도를 측정합니다. x-모형으로부터의 거리는 x-공간에서 관측치가 적합된 정도를 측정합니다.

해석

이 그림을 검토할 때는 x-축이나 y-축에서의 거리가 다른 점들보다 큰 점을 살펴봐야 합니다. y-모형으로부터의 거리가 큰 관측치는 특이치일 수 있으며 x-모형으로부터의 거리가 큰 관측치는 레버리지 점일 수 있습니다.

이 그림에는 극단적인 특이치나 레버리지 점처럼 보이는 점이 없습니다.

잔차 히스토그램

표준화된 잔차 히스토그램은 모든 관측치에 대한 표준화 잔차 분포를 표시합니다.

해석

잔차 히스토그램을 사용하면 데이터가 특정 방향으로 치우쳐 있거나 데이터에 특이치가 있는지 알 수 있습니다. 다음 표의 패턴들은 모형이 모형 가설을 충족하지 않음을 나타낼 수 있습니다.
패턴 패턴이 나타내는 내용
한 쪽 방향의 긴 꼬리 왜도
다른 막대와 멀리 떨어져 있는 막대 특이치

히스토그램의 외양은 데이터를 그룹으로 나누는 데 사용된 구간 수에 따라 다르므로, 히스토그램을 사용하여 잔차의 정규성을 평가하지 마십시오. 그 대신 정규 확률도를 사용하십시오. 히스토그램은 데이터 점의 수가 약 20개 이상일 때 가장 효과적입니다. 표본이 너무 작으면 히스토그램의 각 막대에 왜도나 특이치를 높은 신뢰도로 보여주기에 충분한 데이터 점이 포함되지 않습니다.

이 표준화 잔차 히스토그램은 종 모양이고 대칭을 이루므로 잔차가 한 쪽으로 치우쳐 있지 않고 특이치도 없음을 알 수 있습니다.

잔차의 정규 확률도

잔차의 정규 확률도는 분포가 정규 분포일 때 표준화 잔차 대 잔차의 기대값을 표시합니다.

해석

잔차가 정규 분포를 따른다는 가정을 확인하려면 잔차의 정규 확률도를 사용하십시오. 잔차의 정규 확률도는 대략 직선을 따라야 합니다.

다음 패턴은 잔차가 정규 분포를 따른다는 가정에 위배되는 경우입니다.

S-곡선은 긴 꼬리를 갖는 분포를 의미합니다.

역 S-곡선은 짧은 꼬리를 갖는 분포를 의미합니다.

하향 곡선은 오른쪽으로 치우친 분포를 의미합니다.

선으로부터 멀리 떨어져 있는 몇 개의 점은 특이치를 갖는 분포를 암시합니다.

비정규 패턴이 보이면 다른 잔차 그림을 사용하여 모형에 다른 문제(항 누락 또는 시간 순서 효과 등)가 있는지 확인하십시오. 잔차가 정규 분포를 따르지 않는 경우 신뢰 구간과 p-값이 정확하지 않을 수 있습니다.

잔차 대 적합치

잔차 대 적합치 그래프는 y-축에 표준화 잔차, x-축에 적합치를 표시합니다.

해석

잔차가 랜덤하게 분포되어 있고 잔차의 분산이 일정하다는 가정을 확인하려면 잔차 대 적합치 그림을 사용하십시오. 이상적으로는 점들이 식별 가능한 패턴 없이 0의 양쪽에 랜덤하게 분포해야 합니다.

다음 표의 패턴들은 모형이 모형 가설을 충족하지 않음을 나타낼 수 있습니다.
패턴 패턴이 나타내는 내용
적합치에 대해 잔차가 부채꼴 모양으로 흩어져 있거나 고르지 않게 퍼져 있음 일정하지 않은 분산
곡선 고차 항 누락
한 점이 0에서 멀리 떨어져 있음 특이치
다른 점에서 x 방향으로 멀리 떨어져 있는 점 영향력 있는 점
다음 그래프는 특이치 및 잔차의 분산이 일정하다는 가정의 위반을 보여줍니다.
특이치가 있는 그래프

점 중 하나가 나머지 모든 점보다 훨씬 더 큽니다. 따라서 그 점이 특이치입니다. 특이치가 너무 많으면 모형이 적절하지 않을 수 있습니다. 특이치의 원인을 식별해야 합니다. 모든 데이터 입력 또는 측정 오류를 수정하십시오. 비정상적인 일회성 사건과 연관된 데이터 값을 삭제해 보십시오(특수 원인). 그런 다음 분석을 반복하십시오.

일정하지 않은 분산이 있는 그림

잔차의 분산이 적합치에 따라 증가합니다. 적합치가 증가하면 잔차 간의 산포가 더 넓어집니다. 이 패턴은 잔차의 분산이 동일하지(일정하지) 않다는 것을 나타냅니다.

잔차 대 레버리지 그림

잔차 대 레버리지 그림은 각 관측치의 표준화 잔차 대 레버리지에 대한 산점도입니다.

해석

특이치와 레버리지 점을 식별하려면 잔차 대 레버리지 그림을 사용하십시오.
  • 특이치: 그림의 가로 기준선 밖에 있고 표준화 잔차가 +/- 2보다 큰 관측치입니다.
  • 레버리지 점: 레버리지 값이 2m/n보다 큰 관측치(m = 성분 수, n = 관측치 수)이며, 이러한 관측치는 극단값으로 간주됩니다. 레버리지 점은 x-점수가 0에서 멀리 떨어져 있으며 x 축의 2m/n 값에 있는 수직 기준선의 오른쪽에 있습니다. 레버리지 값은 항상 0과 1 사이에 있으므로 2m/n이 1보다 크면 그래프에 기준선이 표시되지 않습니다.
이 그림에서 콩가루 표본 41과 42는 수직선의 오른쪽에 있으므로 레버리지 점입니다. 콩가루 표본 27, 18 및 39는 수평 기준선의 위에 있거나 바로 아래에 있으므로 특이치입니다. 표본 39는 잔차 대 적합치 그림에서도 특이치입니다.

잔차 대 순서

잔차 대 순서 그림은 표준화 잔차를 데이터가 수집된 순서대로 표시합니다.

해석

잔차가 서로 독립적이라는 가정을 확인하려면 잔차 대 순서 그림을 사용하십시오. 독립 잔차는 시간순으로 표시될 때 아무런 추세나 패턴을 보이지 않습니다. 점들의 패턴은 서로 가까이 있는 잔차가 상관되어 있으며, 따라서 독립적이 아닐 수도 있음을 나타냅니다. 이상적으로는 그림의 잔차들이 중심선 주위에 랜덤하게 분포해야 합니다.
패턴이 있으면 원인을 조사하십시오. 다음 유형의 패턴은 잔차가 종속적이라는 것을 나타낼 수도 있습니다.
추세
이동
주기

점수 그림

점수 그림은 모형에 있는 첫 번째 및 두 번째 성분의 x-점수에 대한 산점도입니다.

해석

처음 두 성분이 예측 변수의 분산을 대부분 설명하면 이 그림의 점 구성은 데이터의 원래 다차원 구성을 근접하게 나타냅니다. 모형에 의해 설명되는 예측 변수의 분산 양을 확인하려면 모형 선택 및 검증표에서 x-분산 값을 검토하십시오. x-분산 값이 크면 해당 모형이 예측 변수의 유의성 분산을 설명하고 있음을 나타냅니다.

이 그림을 조사할 때는 다음 사항을 찾아보십시오.
  • 레버리지 점: 그림에서 대다수의 점으로부터 멀리 떨어져 있는 점은 레버리지 점일 수 있으며 결과에 대해 유의한 효과를 가질 수 있습니다.
  • 군집: 함께 그룹을 이루고 있는 점들은 데이터에서 둘 이상의 개별 분포를 나타낼 수 있으며 다른 모형으로 더 잘 설명될 수 있습니다.
이 그림에서 점수 그림을 살펴보면 하위 사분면에 있는 콩가루 표본 36, 38, 40, 41 및 42는 레버리지 값이 클 수 있습니다. 이들 표본 중 몇 개는 다른 그림에서 특이치나 레버리지 점으로 표시되었습니다. 처음 두 성분이 예측 변수의 분산을 99% 정도 설명하므로 이 그림은 데이터를 적절하게 나타냅니다.
참고

모형에 성분이 2개보다 많이 포함된 경우 산점도를 사용하여 다른 성분의 x-점수를 표시할 수도 있습니다. 이렇게 하려면 x-점수 행렬을 저장한 다음 데이터 > 복사 > 행렬을 열로를 사용하여 행렬을 열에 복사하십시오. 모형에 성분이 하나만 있으면 이 그림은 출력에 표시되지 않습니다.

3D 점수 그림

3D 점수 그림은 모형에 있는 첫 번째, 두 번째, 세 번째 성분의 x-점수에 대한 3차원 산점도입니다. 처음 세 성분이 예측 변수의 분산을 대부분 설명하면 이 그림의 점 구성은 데이터의 원래 다차원 구성을 근접하게 나타냅니다. 모형에 의해 설명되는 분산의 양을 확인하려면 모형 선택 및 검증표에서 x-분산 값을 검토하십시오. x-분산 값이 크면 해당 모형이 예측 변수의 유의성 분산을 설명하고 있음을 나타냅니다.

해석

3D 점수 그림을 조사할 때는 다음 사항을 찾아보십시오.
  • 레버리지 점: 그림에서 대다수의 점으로부터 멀리 떨어져 있는 점은 레버리지 점일 수 있으며 결과에 대해 유의한 효과를 가질 수 있습니다.
  • 군집: 함께 그룹을 이루고 있는 점들은 데이터에서 둘 이상의 개별 분포를 나타낼 수 있으며 다른 모형으로 더 잘 설명될 수 있습니다.

그림을 회전하여 여러 각도에서 그래프를 살펴보려면 3D 그래프 도구도 사용해야 합니다. 이 도구를 사용하면 데이터를 더욱 완전하게 파악할 수 있으며 레버리지 점과 점의 군집을 더 정확하게 확인할 수 있습니다.

이 3D 점수 그림을 회전하면 콩가루 표본 42의 두 번째 성분에 대한 점수가 극단값이기 때문에 이 표본이 레버리지 점일 수 있는 것으로 보입니다. 표본 42는 다른 그림에서 레버리지 점이 될 수 있다고 확인되었습니다.

적재 그림

적재 그림은 모형의 첫 번째 및 두 번째 성분에 투영된 예측 변수의 산점도입니다. 이 그림에는 첫 번째 성분의 x-적재에 대해 표시된 두 번째 성분의 x-적재가 표시됩니다. 예측 변수를 나타내는 각 점은 그림에서 (0,0)과 연결되어 있습니다.

해석

적재 그림은 첫 번째 및 두 번째 성분에 대한 예측 변수의 중요도를 나타내며, 특히 예측 변수의 척도가 다른 경우에 유용합니다. 성분이 모형 선택 및 검증표에 표시된 x-분산의 대부분을 설명하는 경우, 적재 그림은 x-공간에서 예측 변수의 중요도를 나타냅니다. 전체 모형에서 예측 변수의 중요도를 고려하는 경우에는 반응 변수에서 성분이 설명하는 분산의 양도 고려해야 합니다. 이러한 경우를 확인하려면 모형 선택 및 검증표에서 R2 및 예측 R2 값을 검토하십시오.

이 그림을 조사할 때는 다음 사항을 찾아보십시오.
  • 예측 변수들의 상관 관계를 나타내는 선 사이의 각도. 각도가 상대적으로 작으면 예측 변수들 사이에 깊은 상관 관계가 있습니다.
  • 첫 번째나 두 번째 성분의 적재가 크고 모형에서 더 중요한 긴 선을 가진 예측 변수.
이 적재 그림에서는 선 사이의 각도가 작기 때문에 예측 변수들 사이에 깊은 상관 관계가 있음을 알 수 있습니다. 선들은 거의 길이가 같기 때문에 예측 변수들의 중요도는 같습니다. 첫 번째 성분에서 예측 변수들은 비슷한 음의 적재를 갖고 있으므로 예측 변수들의 중요도는 같습니다. 두 번째 성분에서 처음 세 예측 변수의 절대 적재는 나머지 예측 변수의 적재보다 큽니다.
참고

모형에 성분이 2개보다 많이 포함된 경우 산점도를 사용하여 다른 성분의 x-적재를 표시할 수도 있습니다. 이렇게 하려면 x-적재 행렬을 저장한 다음 데이터 > 복사 > 행렬을 열로를 사용하여 행렬을 열에 복사하십시오.

잔차 X 그림

잔차 X 그림은 x-잔차 대 예측 변수의 선 그림입니다. 각 선은 관측치를 나타내며 각 선에는 예측 변수 수만큼의 점이 있습니다.

해석

x-잔차 산점도 행렬을 사용하여 모형이 잘 설명하지 못하는 예측 변수나 관측치를 확인할 수 있습니다. 이 그림은 예측 변수들의 척도가 같은 경우 가장 유용합니다.

이상적인 경우 그림의 선들은 가까이 붙어 있어야 하고 0에 가까워야 합니다.
  • 선들이 x-축의 같은 점에서 서로 떨어져 있으면 모형은 해당 점에서 예측 변수를 잘 설명하지 못합니다.
  • 그림에서 한 선이 다른 선들과 떨어져 있으면 모형은 해당 선이 나타내는 관측치를 잘 설명하지 못합니다.

x-잔차 산점도 행렬을 사용하여 잔차의 일반적인 패턴을 보고 문제가 있는 부분을 조사할 수 있습니다. 그런 다음 출력에 표시된 x-잔차를 조사하여 모형이 잘 설명하지 못하는 예측 변수와 관측치를 확인할 수 있습니다.

이 잔차 X 그림에서 잔차는 0에 가까우므로 모형이 예측 변수의 분산을 대부분 설명한다는 것을 알 수 있습니다. x-잔차 값이 이렇게 작으면 모형이 잘 설명하지 못하는 예측 변수나 관측치를 찾을 수 없습니다.

계산된 X 그림

계산된 X 그림은 계산된 x-값 대 예측 변수의 선 그림입니다. 각 선은 관측치를 나타내며 각 선에는 예측 변수 수만큼의 점이 있습니다.

해석

이 그림을 사용하여 모형이 잘 설명하지 못하는 예측 변수나 관측치를 확인할 수 있습니다. 이 그림은 예측 변수들의 척도가 같은 경우에 가장 유용합니다.

계산된 X 그림은 x-잔차 그림을 보완합니다. 두 그림을 합하면 원래 예측 변수 값의 그림이 됩니다. 원래 x-값보다 훨씬 작거나 큰 x-계산 값을 가진 예측 변수는 모형으로 잘 설명되지 않습니다.

이 그림에서는 계산된 x-값의 대부분이 원래 예측 변수 값에 매우 가까우므로 모형이 예측 변수의 분산을 대부분 설명한다는 것을 알 수 있습니다.