クラスター分析 - K-Means法のデータを入力する

統計 > 多変量 > クラスター分析 - K-Means法

データを入力する

変数に測定データを含む列を入力します。

入力データは2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この手続きを行う前に、欠損しているデータのある行をワークシートから除外してください。欠損値が多いデータセットが大きい場合、各行を手動で削除するのではなく、欠損値を持つ行を除外するワークシートをサブセット化する方が簡単になる可能性があります。詳細はワークシートのサブセット化の概要を参照してください。

このワークシートの列C1~C4には、企業の特徴を説明する変数ごとの測定値が含まれています。初期推測列は、観測値の最初のクラスターメンバーシップを示します。最初の列にある値の中でも、非ゼロ値のみが、それぞれの最初のクラスター(1、2、3)を定義するために使用されるという点に注意してください。初期値が0である残りの観測値は、初期クラスターに割り当てされませんが、その代わり、クラスター化アルゴリズム処理中に、最も近いクラスター重心に基づいて、クラスターに割り当てられます。
C1 C2 C3 C4 C5
顧客 利益率 売上高 年数 イニシャル
150 13.5 50400200 18 1
98 11.7 45665230 12 2
79 12.0 19800800 7 0
122 11.4 42560000 13 0
143 12.4 47635980 15 0
49 9.8 22342600 6 3

初期分割を指定する

開始クラスター指定を指示します。K平均法は、クラスターの最適な開始点がある場合に、良好な結果を示します。最初のクラスター化が、クラスター化されている観測値に関する実用的および・または工学的な知識に基づきます。詳細はクラスター分析K平均法の開始方法を参照してください。

  • クラスター数:初期クラスターの演繹的知識がない場合に選択します。値を入力して、作成するクラスターの数を指定します。初期クラスターは、ワークシート内の1行目のデータです。たとえば、3を入力する場合、最初の3行のデータは初期クラスターの重心です。
  • 初期分割 (パーティション) 列:初期クラスターメンバーシップが含まれる列を指定するために選択します。初期クラスターを定義する観測値の正の整数を使用して、残りの観測値にゼロを使用します。

変数を標準化する

変数を標準化するを選択して、Minitabにすべての変数を等しく重み付けさせます。多くの場合、標準化は実用的であり、変数が異なる尺度を使用するときはとくに重要になります。変数Aの尺度が0~10,000,000ドル、変数Bの尺度が0.0~1.0の比率だとします。変数が標準化されていない場合、クラスター化手順は、変数Bよりも、尺度の大きい変数Aを重み付けしますが、おそらくこれは望まれる結果ではありません。このため、値を標準化する必要があります。

Minitabでは、平均値を減算し、標準偏差で除算することにより、距離行列を計算する前にすべての変数を標準化します。変数を標準化すると、全重心がすべてのクラスターで0になります。