分析のデータを指定し、結合法および距離法を選択し、変数を標準化するかどうかを指示し、最終分割を指定して、グラフオプションを選択します。
変数または距離行列に、測定データが含まれる列、またはすべての観測値ペア間の距離が含まれる保存距離行列のいずれかを入力します。
保存距離行列を入力する場合、最終分割の統計量は計算できません。
測定データでは、2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この分析を実行する前に、欠損しているデータのある行をワークシートから除外してください。データの行が多い場合、欠損値を持つ行を除外するワークシートをサブセット化したくなるかもしれません。詳細はワークシートのサブセット化の概要を参照してください。
この分析にはカテゴリ変数を入力することはできません。カテゴリ変数がある場合には、テキスト値を数値の尺度にまず変換するか、カテゴリ変数の各水準にそれぞれの分析を実行する必要があります。詳細は、クラスター分析 - 観測値のデータに関する考慮事項を参照してください。
保存距離行列では、距離行列Dの行iと列jのエントリは、観測値iとjの距離です。保存された行列の作成および使用に関する詳細は行列の概要を参照してください。
C1 | C2 | C3 | C4 |
---|---|---|---|
性別 | 高さ | 体重 | 左右手座標系 |
2 | 67 | 155 | 1 |
1 | 74 | 193 | 1 |
2 | 68 | 152 | 1 |
1 | 70 | 172 | 0 |
1 | 72 | 169 | 1 |
2 | 66 | 134 | 0 |
結合手法から、2つのクラスターの距離を定義する方法を選択します。データに対する結果を有用にする方法を確認するため、複数の連結法を試したいと思うかもしれません。
クラスター分析 - 観測値では、距離は観測値間の距離のことであり、連結は観測値のクラスター間の距離のことです。クラスター分析 - 変数では、距離は変数間の距離のことであり、連結は変数のクラスター間の距離のことです。
群平均、重心、中央値、またはウォード (Ward)を連結法として選択した場合、通常は二乗距離測度の1つを使用する必要があります。
変数を標準化するを選択して、Minitabにすべての変数を等しく重み付けさせます。たいていの場合、標準化は実用的であり、変数にさまざまな尺度を使用する場合は特に重要になります。変数Aは0~10,000,000ドルの尺度、変数が0.0~1.0の尺度の比率であるとします。変数が標準化されていない場合、クラスター観測手順は、変数Bよりも、尺度の値が大きい変数Aにより重み付けをしますが、これはおそらく望まれる結果ではありません。このため、変数は標準化すべきです。
変数を標準化する場合、Minitabでは、すべての平均が0に、すべての変数が1に等しくなるようにします。分散だけを等しくするには、標準化オプションを選択しないで、その代わり、距離スケールでピアソンまたは二乗ピアソン法のいずれかを選択します。
最適な結果を得るには、基準を柔軟に設定する必要があります。たとえば、クラスター数を使用して最終分割を定義する場合、類似度水準を変更することも検討する必要があります。特定のクラスターを追加したときに類似度が急落したら、このグループ化の前に最終分割(パーティション)を指定することを示している可能性があります。逆に、類似度水準を使用して最終分割を定義する場合、クラスターの範囲全体で類似度水準があまり変化しないかどうかを判断することもあり、単純化のために、クラスターが最小のステップに従うことを選択するかもしれません。
最終分割を指定するためにどんな値を入力すればよいかわからない場合、まず、デフォルト設定(最終分析のクラスターは1)を使用して分析を実行します。Minitabでは、可能性のあるすべてのクラスター数の結果を表示します。結果を使用して、最終分割に入力する値を判断します。その後、分析を繰り返して、判断する最終分割を指定します。詳細はクラスターの最終グループ化を判断するを参照してください。
併合手順のステップごとにクラスターが作成される過程を示す枝分かれ図を表示するために選択します。樹形図により、ステップごとのクラスターの類似度(または距離)の値を表示できます。
樹形図のデフォルトの表示を変更するにはカスタマイズするをクリックします。