このマクロでは、Cookの単一ケース距離スケールを複数ケースに拡張して計算します。データセットサイズに応じて、すべての2つ一組のケースと3つ一組のケースの距離スケールを計算できます。さらに、ユーザーが選択した10個までのケースのサブセットで距離スケールを計算できます。作成されるグラフには、ケース番号に対する単一ケースのCookの距離のプロット、影響力のあるケースペアIDプロット、およびケースの固定ペアに3番目のケースを追加することによる効果またはCookの距離の変化を表す固定ペアの効果プロットが含まれます。定数項を含まないモデルで同様の機能を使用できます。
ダウンロードしたマクロの場所をMinitabが見つけられるようにします。[マクロの位置]でマクロファイルを保存する場所を参照します。
を選択し、古いWebブラウザを使用している場合、[ダウンロード]ボタンをクリックしたときに、Minitabマクロと同じ.mac拡張子を使用するQuicktimeでファイルが開く場合があります。マクロを保存するには、[ダウンロード]ボタンを右クリックして[対象をファイルに保存]を選択します。
マクロの実行に使用する構文は、使用しているバージョンによって若干異なります。
次の例は、RousseeuwおよびLeroy(1987)による20個のケースと5個の予測変数の「Modified Data on Wood Specific Gravity」サンプルデータセットを使用しています。選択した5個のケースのサブセットの計算結果はSeaver、Triantis、およびReeves(1999)の結果と一致します。
応答Y(比重)の値がC1にあり、5個の予測変数(X1~X5)が列2~6にあるとします。5個のサブセットケースが選択されています。
%MULTDIST C1-C6; SUB1 5; SUB2 8 19; SUB3 6 8 19; SUB4 4 8 19; SUB5 4 6 8 19.
[コマンドを発行する]をクリックします。
マクロの出力は次のようになります。
Multiple Case Cook's Distance Model Information ------------------------ Response: Y Predictors: X1 , X2 , X3 , X4 , X5 Parameters: 6 Threshold value: 1.00 ------------------------ *** Cook's Distance for Case Pairs *** Cases Cook's Distance 7 , 11 1.03 *** Cook's Distance for a Subset *** Cases: 5 Cook's Distance: 0.06 Cases: 8 , 19 Cook's Distance: 0.33 Cases: 6 , 8 , 19 Cook's Distance: 1.99 Cases: 4 , 8 , 19 Cook's Distance: 0.49 Cases: 4 , 6 , 8 , 19 Cook's Distance: 53.93
グラフの出力は示されていません。
データセットサイズ
Cookの距離の計算でのデータセットサイズ制限は、2つ一組のケースと3つ一組のケースでそれぞれ60と30です。ケースサブセットの計算でのデータセットサイズ制限は500です。2つ一組のケースと3つ一組のケースの制限はマクロ内で変更できます。制限を変更するには、「MSE check, triple, nopair」というラベルのマクロコード内のセクションに移動し、30と60を目的のサイズに変更します。データセットサイズを増やすと、特にすべての3つ一組のケースの計算で計算時間が長くなります。
逆行列は存在しない
混合モデルを分析する場合、NONCONSTANTサブコマンドを指定する必要があります。指定しない場合、XTX行列の逆行列が存在しないことを示すエラーメッセージが表示されます。通常は、予測変数が(ほぼ)完全な相関関係にある場合にこのエラーメッセージが表示されます。
欠損値
マクロは欠損データがある行を削除することで欠損データを処理します。これはセッションウィンドウ出力とグラフに表示されます。セッションウィンドウにこの状況を警告するメッセージが表示されます。
参考文献
Rousseeuw, P. J. and Leroy, A. M. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc.
Seaver, B., Triantis, K., and Reeves, C. (1999), The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy, Technometrics, 41, 340-351.