クラスター分析 - 観測値のデータを入力する

統計 > 多変量 > クラスター分析 - 観測値

分析のデータを指定し、結合法および距離法を選択し、変数を標準化するかどうかを指示し、最終分割を指定して、グラフオプションを選択します。

データを入力する

変数または距離行列に、測定データが含まれる列、またはすべての観測値ペア間の距離が含まれる保存距離行列のいずれかを入力します。

保存距離行列を入力する場合、最終分割の統計量は計算できません。

測定データでは、2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この分析を実行する前に、欠損しているデータのある行をワークシートから除外してください。データの行が多い場合、欠損値を持つ行を除外するワークシートをサブセット化したくなるかもしれません。詳細はワークシートのサブセット化の概要を参照してください。

この分析にはカテゴリ変数を入力することはできません。カテゴリ変数がある場合には、テキスト値を数値の尺度にまず変換するか、カテゴリ変数の各水準にそれぞれの分析を実行する必要があります。詳細は、クラスター分析 - 観測値のデータに関する考慮事項を参照してください。

保存距離行列では、距離行列Dの行iと列jのエントリは、観測値iとjの距離です。保存された行列の作成および使用に関する詳細は行列の概要を参照してください。

このワークシートの各列には、アスリートに関するさまざまな測度が含まれます。
C1 C2 C3 C4
性別 高さ 体重 左右手座標系
2 67 155 1
1 74 193 1
2 68 152 1
1 70 172 0
1 72 169 1
2 66 134 0

連結法を指定する

結合手法から、2つのクラスターの距離を定義する方法を選択します。データに対する結果を有用にする方法を確認するため、複数の連結法を試したいと思うかもしれません。

クラスター分析 - 観測値では、距離は観測値間の距離のことであり、連結は観測値のクラスター間の距離のことです。クラスター分析 - 変数では、距離は変数間の距離のことであり、連結は変数のクラスター間の距離のことです。

群平均
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)と他方のクラスター内の観測値(または変数)間の平均距離です。最短距離結合法(最近隣法)または最長距離結合法(最遠隣法)は、1つの距離ペアに基づきますが、平均結合法では、より中心にある位置の尺度を使用します。
重心
2つのクラスター間の距離は、クラスター重心間の距離、つまり平均値です。平均結合法と同様、この方法は平均化の手法でもあります。
すべて
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)間と他方のクラスター内の観測値(または変数)間の最大値距離です。最遠隣法とも呼ばれるこの方法では、クラスター内のすべての観測値(または変数)が最大距離以内に含まれ、直径が同じクラスターが生成される傾向にあります。ただし、結果は外れ値に大きく左右されます。
類似度分析 (McQuitty)
新しいクラスターと他方のクラスターとの距離は、結合前のクラスターと他方のクラスターとの距離の平均として計算されます。たとえば、クラスター1と3が結合されて新しいクラスターになる場合は1*と呼び、1*とクラスター4との距離は、1と4の距離と3と4の距離の平均になります。この方法では、距離は、クラスター内の個々の観測値(または変数)ではなく、クラスターの組み合わせによって変化します。
中央値
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)と他方のクラスター内の観測値(または変数)の中央値距離です。こうした平均化の技術では、平均ではなく中央値を使用するので、外れ値の影響は小さくなります。
単一
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)と他方のクラスター内の観測値(または変数)間の最小距離です。最近隣法とも呼ばれるこの方法は、クラスターが明らかに異なる場合に適切な選択になります。観測値(または変数)が近接している場合、最短距離連結法は、チェーンの両端の観測値を隔てる比較的大きい距離値を持つ長いチェーン状のクラスターを識別する傾向があります。
ウォード (Ward)
2つのクラスター間の距離は、点から重心までの平方偏差の和です。ウォード(Ward)リンケージ法の目的は、クラスター内平方和を最小にすることです。この方法では、作成されるクラスターの観測値(または変数)の数が同様になる傾向がありますが、外れ値の影響を受けます。また、2つのクラスター間の距離が、dmax(元の距離行列の最大値)より大きくなる可能性があります。この場合、類似度は負になります。

距離測度を指定する

距離スケールから、観測値ペア間の距離を計算するために方法を選択します。
ユークリッド法
最もよく使用される距離測度(差の平方和の平方根を計算して得られます)。
二乗ユークリッド法
ユークリッド法を使用して計算する二乗距離。この方法により、外れ値の重み付けは大きくなります。
ピアソン
分散で除算した距離平方和の平方根。分散を同じにするこの方法は、標準化に使用されます。
二乗ピアソン法
ピアソン法を使用して計算する二乗距離。この方法により、外れ値の重み付けは大きくなり、分散は同じになります。
マンハッタン
絶対距離の和。この方法により、外れ値の重み付けは小さくなります。
ヒント

群平均重心中央値、またはウォード (Ward)を連結法として選択した場合、通常は二乗距離測度の1つを使用する必要があります。

変数を標準化する

変数を標準化するを選択して、Minitabにすべての変数を等しく重み付けさせます。たいていの場合、標準化は実用的であり、変数にさまざまな尺度を使用する場合は特に重要になります。変数Aは0~10,000,000ドルの尺度、変数が0.0~1.0の尺度の比率であるとします。変数が標準化されていない場合、クラスター観測手順は、変数Bよりも、尺度の値が大きい変数Aにより重み付けをしますが、これはおそらく望まれる結果ではありません。このため、変数は標準化すべきです。

変数を標準化する場合、Minitabでは、すべての平均が0に、すべての変数が1に等しくなるようにします。分散だけを等しくするには、標準化オプションを選択しないで、その代わり、距離スケールピアソンまたは二乗ピアソン法のいずれかを選択します。

最終分割(パーティション)を指定する

最終グループ化を判断するために使用する基準を指定します。
  • クラスター数:最終分割のクラスター数を入力するために選択します。
  • 類似度の水準:最終分割のクラスター数の類似度水準を入力するために選択します。

最適な結果を得るには、基準を柔軟に設定する必要があります。たとえば、クラスター数を使用して最終分割を定義する場合、類似度水準を変更することも検討する必要があります。特定のクラスターを追加したときに類似度が急落したら、このグループ化の前に最終分割(パーティション)を指定することを示している可能性があります。逆に、類似度水準を使用して最終分割を定義する場合、クラスターの範囲全体で類似度水準があまり変化しないかどうかを判断することもあり、単純化のために、クラスターが最小のステップに従うことを選択するかもしれません。

最終分割を指定するためにどんな値を入力すればよいかわからない場合、まず、デフォルト設定(最終分析のクラスターは1)を使用して分析を実行します。Minitabでは、可能性のあるすべてのクラスター数の結果を表示します。結果を使用して、最終分割に入力する値を判断します。その後、分析を繰り返して、判断する最終分割を指定します。詳細はクラスターの最終グループ化を判断するを参照してください。

樹形図を表示する

併合手順のステップごとにクラスターが作成される過程を示す枝分かれ図を表示するために選択します。樹形図により、ステップごとのクラスターの類似度(または距離)の値を表示できます。

樹形図のデフォルトの表示を変更するにはカスタマイズするをクリックします。