다중 사례 Cook의 거리

이 매크로는 Cook의 단일 사례 거리 측도의 다중 사례 확장을 계산합니다. 데이터 집합 크기에 따라 모든 사례 쌍과 3-성분에 대해 거리 측도를 계산할 수 있습니다. 또한 사용자가 선택한 부분 집합에 대해서도 최대 10개 사례까지 거리 측도를 계산할 수 있습니다. 생성되는 그래프에는 사례 번호별 단일 사례에 대한 Cook의 거리 그림, 영향력 있는 사례 쌍 ID 그림, 세 번째 사례를 고정 사례 쌍에 추가함에 따른 효과 또는 Cook의 거리의 변화를 보여주는 고정 쌍 효과도가 포함됩니다. 상수 항이 없는 모형의 경우에도 같은 기능을 사용할 수 있습니다.

매크로 다운로드

Minitab에서 다운로드한 매크로의 위치를 지정해야 합니다. 파일 > 옵션 > 일반을 선택합니다. 매크로 위치에서 매크로 파일 저장 위치로 이동합니다.

중요

기존 웹 브라우저를 사용하는 경우 다운로드 단추를 클릭하면 Minitab 매크로와 .mac 파일 확장자를 공유하는 Quicktime에서 해당 파일을 열 수 있습니다. 매크로를 저장하려면 다운로드 단추를 마우스 오른쪽 단추로 클릭하고 다른 이름으로 대상 저장을 선택합니다.

다운로드 MULTDIST.mac

필수 입력

하나의 반응 값 열
여러 개의 예측 변수 값 열

선택적 입력

HOLD: 고정 쌍 효과도를 생성할 사례 쌍을 지정하기 위해 사용합니다.
NOCONSTANT: 모형에 상수 항을 포함하지 않으려는 경우에 사용합니다. 이 명령은 XTX 행렬의 계수 부족을 피하기 위해 모형에 상수 항이 누락된 혼합 모형을 분석하는 경우 특히 유용합니다.
NOPAIR: 모든 사례 쌍에 대해 거리 값을 계산하지 않으려는 경우에 사용합니다. 이 하위 명령을 사용하려면 모든 3-성분에 대해 계산하거나, 하나 이상의 선택된 부분 집합에 대해 계산하거나 또는 HOLD 하위 명령을 사용해야 합니다.
NOPLOTS: 진단 그림을 표시하지 않으려는 경우에 사용합니다.
REPORTALL: 계산된 거리 값을 모두 보고하는 데 사용합니다. 이 하위 명령을 선택하면 모든 거리 값이 표시되기 때문에 임계값과의 비교 값이 제거됩니다. 이 하위 명령을 선택하는 경우에는 임계값이 시각적 보조 도구로 계속 그래프에 표시됩니다.
SPAIRS C C C: 사례 쌍에 대한 모든 거리 값을 워크시트에 저장하기 위해 사용합니다. 지수에 대해 처음 두 열, 거리 값에 대해 세 번째 열 등 세 개의 열을 지정합니다.
STRIPLES C C C C: 사례 3-성분에 대한 모든 거리 값을 워크시트에 저장하기 위해 사용합니다. 지수에 대해 다음 세 열, 거리 값에 대해 네 번째 열 등 네 개의 열을 지정합니다.
SUB1 K…K: 최대 10개의 선택된 사례(K)의 부분 집합에 대해 거리 값을 계산하기 위해 사용합니다. 이 하위 명령은 네 개 이상 사례의 부분 집합에 대해 특히 유용합니다. 하위 명령 SUB1, SUB2, SUB3, SUB4, SUB5를 사용하여 최대 5개의 부분 집합을 지정할 수도 있습니다.
THRESHOLD K: 임계값을 지정하기 위해 사용합니다. 기본적으로 임계값은 1.00입니다. 이 값보다 크거나 같은 계산된 결과가 모두 표시됩니다. 지정된 임계값은 양수 값이어야 합니다.
TRIPLE: 매크로에서 모든 사례 3-성분에 대해 Cook의 거리를 계산하고 기본 또는 지정된 임계값에 비교하기 위해 사용합니다.

매크로 실행

매크로 실행에 사용되는 구문은 사용 중인 버전에 따라 약간 다릅니다.

다음 예에서는 Rousseeuw and Leroy(1987)의 20개 사례 및 5개 예측 변수의 "Modified Data on Wood Specific Gravity" 데이터 집합인 표본 데이터를 사용합니다. 선택된 5개 사례 부분 집합에 대한 계산 결과는 Seaver, Triantis, and Reeves(1999)에 주어진 결과와 일치합니다.

반응 Y인 비중의 값이 C1에 있고 5개 예측 변수 X1 - X5의 값이 2 - 6열에 있다고 가정합니다. 5개의 부분 집합 사례가 선택되었습니다.

매크로를 실행하려면 보기 > 명령줄/기록 표시을 선택하고 다음을 입력합니다.

%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19.

실행을(를) 클릭합니다.

결과

다음은 매크로 실행 결과입니다.

다중 사례 Cook의 거리

모형 정보
------------------------
반응:     Y

예측 변수:   X1 , X2 , X3 , X4 , X5                                            

모수:    6
 
임계값:    1.00
------------------------
 
*** 사례 쌍에 대한 Cook의 거리 ***
 
     사례        Cook의 거리

     7 , 11             1.03

 
*** 부분 집합에 대한 Cook의 거리 ***

     사례:  5   Cook의 거리:  0.06                                              


     사례:   8 , 19   Cook의 거리:  0.33                                        


     사례:   6 ,  8 , 19   Cook의 거리:  1.99                                   


     사례:   4 ,  8 , 19   Cook의 거리:  0.49                                   


     사례:   4 ,  6 ,  8 , 19   Cook의 거리:  53.93

참고

그래프 결과는 표시되지 않습니다.

추가 정보

데이터 집합 크기

Cook의 거리를 계산하기 위한 데이터 집합 크기 제한은 사례 쌍과 3-성분에 대해 각각 60과 30입니다. 사례 부분 집합 계산에 대한 데이터 집합 크기 제한은 500입니다. 매크로 내에서 사례 쌍 및 3-성분 제한을 변경할 수도 있습니다. 제한을 변경하려면 매크로 코드에서 "MSE check, triple, nopair" 섹션으로 이동하여 30과 60을 원하는 크기로 변경하십시오. 데이터 집합 크기가 증가하면 특히 모든 3-성분을 계산하는 경우, 계산 시간이 늘어납니다.

역행렬이 존재하지 않음

혼합 모형을 분석하는 경우 비상수 하위 명령을 지정해야 합니다. 해당 하위 명령을 지정하지 않는 경우 XTX 행렬의 역행렬이 존재하지 않는다는 오류 메시지가 표시됩니다. 일반적으로 예측 변수가 (거의) 완벽하게 상관되어 있는 경우 이 오류 메시지가 표시됩니다.

결측값

매크로에서는 결측 데이터가 있는 행을 제거하여 결측 데이터를 처리합니다. 결과와 그래프에 표시됩니다.

참고 문헌

Rousseeuw, P. J. and Leroy, A. M. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc.

Seaver, B., Triantis, K., and Reeves, C. (1999), The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy, Technometrics, 41, 340-351.