K平均法によるクラスター化では、最初に、定義されたクラスター数に観測値をグループ化します。
- Minitabによって各観測値が評価され、最近隣のクラスターに移動されます。最も近いクラスターとは、観測値とクラスター重心間のユークリッド距離が最小のクラスターのことです。
- 観測値の増減によってクラスターが変化すると、クラスター重心が再計算されます。
- 以上の処理は、異なるクラスターに移動できる観測値がなくなるまで繰り返されます。この時点で、すべての観測値が過去の基準に従って最近隣のクラスターに配置されます。
観測値の階層クラスターを作成するときとは異なり、結合後でも、2つの観測値を結合前の別々のクラスターに分けることができます。
K平均法は、クラスターの最適な初期データ点がある場合に、良好な結果を示します。クラスター化工程を開始するには、クラスター数の指定、またはグループコードを含む初期分割(パーティション)列の追加という2つの方法があります。
最初にデータを分割するための詳細な情報がない場合でも、工程を開始することができます。最終分割(パーティション)が3つのグループで構成され、これらの各グループにそれぞれ観測値2、5、9が属していることが分かっているとします。ここから先を進めるかどうかは、クラスター数を指定するか、または初期分割(パーティション)列を追加するかによって異なります。
- クラスター数を指定する場合は、ワークシート内のデータを再編成して観測値2、5、9をワークシートの上部に移動し、クラスター数に3を指定します。
- 初期分割(パーティション)列に入力する場合は、ワークシートのデータを再編成する必要はありません。初期分割(パーティション)ワークシート列で、観測値2、5、9に対してそれぞれグループ番号1、2、3を入力し、他の観測値に対しては0を入力します。
最終分割(パーティション)は、使用される初期分割(パーティション)によって多少異なります。さまざまな初期分割(パーティション)を試してみることもできます。ミリガンによると、K平均法は、初期化が任意に行われるときと同じようには機能しないことがあります。ただし、最適な初期データ点がある場合、K平均法によるクラスター化はかなり頑健になります。