変数または距離行列に、測定データが含まれる列、またはすべての変数ペア間の距離が含まれる保存距離行列のいずれかを入力します。
保存距離行列を入力する場合、最終分割の統計量は計算できません。
測定データでは、2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この分析を実行する前に、欠損しているデータのある行をワークシートから除外してください。データの行が多い場合、欠損値を持つ行を除外するワークシートをサブセット化したくなるかもしれません。詳細はワークシートのサブセット化の概要を参照してください。
この分析にはカテゴリ変数を入力することはできません。カテゴリ変数がある場合には、テキスト値を数値の尺度にまず変換するか、カテゴリ変数の各水準にそれぞれの分析を実行する必要があります。詳細は、クラスター分析 - 変数のデータに関する考慮事項を参照してください。
保存距離行列では、距離行列Dの行iと列jのエントリは、変数iとjの距離です。保存された行列の作成および使用に関する詳細は行列の概要を参照してください。
C1 | C2 | C3 | C4 | C5 |
---|---|---|---|---|
新聞 | ラジオ | テレビ | 識字率 | 大学 |
279 | 267 | 227 | 0.98 | 1 |
143 | 112 | 332 | 0.94 | 1 |
9 | 113 | 7 | 0.25 | 0 |
391 | 314 | 566 | 0.99 | 1 |
112 | 48 | 423 | 0.82 | 1 |
67 | 66 | 134 | 0.45 | 0 |
結合手法から、2つのクラスターの距離を定義する方法を選択します。データに対する結果を有用にする方法を確認するため、複数の連結法を試したいと思うかもしれません。
クラスター分析 - 観測値では、距離は観測値間の距離のことであり、連結は観測値のクラスター間の距離のことです。クラスター分析 - 変数では、距離は変数間の距離のことであり、連結は変数のクラスター間の距離のことです。
最適な結果を得るには、基準を柔軟に設定する必要があります。たとえば、クラスター数を使用して最終分割を定義する場合、類似度水準を変更することも検討する必要があります。特定のクラスターを追加したときに類似度が急落したら、このグループ化の前に最終分割(パーティション)を指定することを示している可能性があります。逆に、類似度水準を使用して最終分割を定義する場合、クラスターの範囲全体で類似度水準があまり変化しないかどうかを判断することもあり、単純化のために、クラスターが最小のステップに従うことを選択するかもしれません。
最終分割を指定するためにどんな値を入力すればよいかわからない場合、まず、デフォルト設定(最終分析のクラスターは1)を使用して分析を実行します。Minitabでは、可能性のあるすべてのクラスター数の結果を表示します。結果を使用して、最終分割に入力する値を判断します。その後、分析を繰り返して、判断する最終分割を指定します。詳細はクラスターの最終グループ化を判断するを参照してください。
併合手順のステップごとにクラスターが作成される過程を示す枝分かれ図を表示するために選択します。樹形図により、ステップごとのクラスターの類似度(または距離)の値を表示できます。
樹形図のデフォルトの表示を変更するにはカスタマイズするをクリックします。