クラスター分析 - K-Means法のデータに関する考慮事項

有効な結果が確実に得られるようにするため、データの収集、分析の実行、および結果の解釈時には、次のガイドラインを考慮してください。

生データを使用する必要性
各行に、1つの項目の測定値または被験者の測定値を含めます。入力データは2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この分析を行う前に、欠損しているデータのある行をワークシートから除外してください。
クラスター化工程は、最初のクラスター化が実践的および・または開発知識に基づいている場合に最もよく機能します。
ただし、初期クラスターの演繹的知識がない場合、形成するクラスターの数を指示することで、工程を初期化することなくこの分析を実行できます。詳細はクラスター分析 - K-Means法のデータを入力するを参照してください。
データ列を使用してクラスター化工程を初期化するには、クラスターメンバーシップを指定するための値の列が必要
初期化列の値は、正の連続する整数または0である必要があります(すべて0にはしないでください)。最初に、各測定値は、この列の対応する値によって識別されたクラスターに割り当てられます。0の初期化は、測定値が最初にグループに割り当てられていないことを意味します。初期分割(パーティション)列内の異なる正の整数の数は、最終分割(パーティション)のクラスター数と等しくなります。
外れ値は結果に大きな影響を与えることがある
データに外れ値(異常に大きな値や小さな値)があると、クラスター化の結果に影響を及ぼすことがあります。クラスターは、外れ値が削除されない場合に大きくなることが多く、その結果、解は論理的には見えないことがあります。外れ値を調べて、測定値エラーまたは記録エラーに起因する値を削除します。極端な外れ値は、特定の観測値がデータセットのすべての他の観測値とは根本から異なることを示している可能性もあります。分析に極端な外れ値が含まれていない実際上の理由がある場合、外れ値の結果への影響度を確認するために、外れ値なしで分析を再実行することを検討します。