クラスター分析 - 変数のデータに関する考慮事項

有効な結果が確実に得られるようにするため、データの収集、分析の実行、結果の解釈時には、次のガイドラインを考慮してください。

生データまたは距離の行列を持つことができます。

通常、この分析の生データを使用します。各行に、1つの項目の測定値または被験者の測定値を含めます。入力データは2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この分析を行う前に、欠損しているデータのある行をワークシートから除外してください。

p x p距離行列（pは変数の数）を保存すると、この分析の行列は入力データとして使用することができます。行列の（i, j）のエントリは、変数iとjの間の距離行列です。距離の行列を使用する場合、最終分割の統計量は計算できません。

データは数値でなければならない

クラスターを形成するには、この分析では変数間の距離を計算しますが、カテゴリ変数の水準間の距離は測定できません。この分析でカテゴリ変数を使用するには、テキスト値を数値の尺度にまず変換する必要があります。たとえば、分析者は、カテゴリ「非常に満足」「満足」「不満」「非常に不満」を使用して顧客満足度を測定します。クラスター変数を実行するには、分析者はこれらのカテゴリを+2、+1、−1、−2に再コード化します。こうすると、変数間の距離を分析で計算できるようになります。別な方法として、ワークシートをカテゴリ変数の水準ごとのシートとに分割して、水準ごとの変数をクラスター化できます。ワークシート分割の詳細はワークシートの分割の概要を参照してください。